药物发现中的分子表示：从序列到多模态融合

药物发现中的分子表示：从序列到多模态融合本文信息标题：Molecular Representations for Drug Discovery（药物发现的分子表示方法）作者：Leili Zhang, Alex Golts, Vanessa Lopez Garcia 发表时间：2025年（Springer Handbook of Chem- and Bioinformatics 第48章）单位：IBM Research（美国、以色列、爱尔兰）引用格式：Zhang, L., Golts, A., & Lopez Garcia, V. (2025). Molecular Representations for Drug Discovery. In J. Leszczynski (Ed.), Springer Handbook of Chem- and Bioinformatics (pp. 1105-1121). Springer Nature Switzerland AG. https://doi.org/10.1007/978-3-031-81728-1_48 摘要在机器学习辅助药物发现的任务中，分子和靶点首先需要转换为机器可处理的数据格式，然后才能使用各种机器学习算法进行处理。这些机器可处理的数据被称为分子表示。受蛋白质结构层次，即一级、二级、三级和构象系综结构的启发，本文将典型的分子表示重新定义为四种数据模态：序列模态（一维）、拓扑模态（二维）、空间模态（三维）和时间模态（四维）。每种模态都配有文献中的实例进行说明。此外，本文还讨论了用于表示学习的知识图谱以及旨在利用各模态优势的多模态融合技术。核心观点四维模态分类体系：基于蛋白质结构层次，将分子表示分为序列（一维）、拓扑（二维）、空间（三维）和时间（四维）四种模态，每种模态都有其独特的物理含义和应用场景序列模态的高效性：SMILES和蛋白质序列等一维字符串表示因其紧凑性和高效性，在大规模预训练中占据重要位置，如MolFormer和ESM等基础模型拓扑模态的实用性：二维指纹和分子图捕获了分子的局部环境和连接模式，是传统QSAR和现代GNN方法的核心表示空间模态的结构敏感性：三维表示充分利用坐标信息和空间关系，对构象敏感，是基于结构的药物设计的核心，但也面临SE(3)对称性等挑战时间模态的探索性：四维表示包含时间依赖信息，如MD轨迹和构象系综，目前在机器学习中的应用仍相对较少，但熵估计和结合动力学等任务显示出其独特价值多模态融合的必要性：单一模态往往无法捕获分子的全部信息，多模态融合（早期融合、中间融合、后期融合）可以结合不同模态的优势，但也面临信息冗余和模态崩溃等挑战知识图谱的整合作用：知识图谱能够整合异构数据源的结构化知识，为表示学习提供领域知识注入，如PrimeKG和OtterKnowledge等方法展示了知识增强表示学习的潜力图1：分子表示的四维模态分类体系。该图是本文的核心框架图，展示了基于蛋白质结构层次的数据模态分类方法。图中展示了不同模态的典型表示示例：序列模态：SMILES字符串（如CC(=O)NCCc1c[nH]c2ccc(OC)cc12）和蛋白质序列（如MATLEKLMKAFESLKSF）拓扑模态：MACCS、Morgan、ECFP等二维指纹以及骨架结构图空间模态：距离/接触矩阵（如OnionNet、Distogram）、三维指纹（如PLIF、E3FP）、三维图像（体素网格）和三维图（节点N和边E）时间模态：随时间采样的MD轨迹（c1、c2、c3表示不同时刻的构象）知识图谱：整合药物-药物相互作用、基因表达网络、蛋白质-GO等多源信息多模态融合：右侧展示了多模态融合技术（聚合函数f和学习函数p）的应用背景在机器学习辅助药物发现的任务中，分子和靶点首先需要转换为机器可处理的数据格式，然后才能使用各种机器学习算法进行处理。这些机器可处理的数据被称为分子表示。分子表示的选择对模型性能有决定性影响，不同的表示方式会编码分子的不同特征，从而影响模型对分子性质的理解和预测能力。传统的分子表示分类基于人类阅读习惯，包括文本、图、图像和视频；或基于生物医学概念，包括DNA、RNA、蛋白质、小分子、疾病文本描述、生物网络等。然而，这些分类缺乏物理意义的统一框架。本文受蛋白质结构层次的启发，将分子表示重新定义为基于物理理解的数据模态：蛋白质的一级结构对应序列（一维）模态，二级结构对应拓扑（二维）模态，三级结构对应空间（三维）模态，而构象系综对应时间（四维）模态。为什么要关注分子表示分子表示是连接化学世界和机器学习模型的桥梁。一个好的分子表示应该能够：充分编码分子的关键信息，包括拓扑结构、电子性质、空间构象等满足机器学习算法的要求，如平移和旋转不变性、可微分性等适应下游任务的需求，如性质预测、生成模型、虚拟筛选等平衡表达能力和计算效率，在编码足够信息和保持计算可行性之间取得平衡近年来，随着深度学习技术的发展，分子表示学习方法也取得了显著进展。从传统的QSAR描述符到现代的图神经网络和预训练语言模型，分子表示已经从人工设计的特征发展到数据驱动的表示学习。这种转变不仅提高了预测性能，也拓展了分子表示的应用范围。分子表示的演进历程分子表示的发展可以分为几个阶段：人工设计阶段：化学家根据经验设计分子描述符，如分子量、LogP、拓扑指数等，这些描述符通常具有明确的物理或化学意义自动化提取阶段：随着计算化学的发展，出现了自动化的分子指纹生成方法，如MACCS keys、ECFP等，这些方法能够系统地提取分子特征表示学习阶段：深度学习的兴起带来了数据驱动的表示学习，如自动编码器、图神经网络等，能够从数据中自动学习分子表示预训练模型阶段：大规模预训练模型的出现，如MolFormer、ESM等，通过自监督学习在海量数据上预训练，然后迁移到下游任务当前挑战尽管分子表示研究取得了显著进展，但仍面临多个挑战：表示选择的主观性：如何为特定任务选择合适的分子表示仍缺乏明确指导原则多模态融合的有效性：如何有效融合不同模态的信息，避免信息冗余和模态崩溃知识整合的复杂性：如何将领域知识融入表示学习，提高模型的可解释性和泛化能力评估标准的不一致性：缺乏统一的评估框架来比较不同表示方法的性能分子表示的四维模态体系下面这张思维导图可以先把全文主线抓住：本文不是简单罗列工具，而是在回答一个更根本的问题，即药物发现中的分子信息究竟可以按什么物理层次来组织。 mindmap root(药物发现中的分子表示) 序列模态（一维）小分子字符串 SMILES SELFIES InChI 蛋白质序列 ESM ProteinBERT 拓扑模态（二维）二维指纹 MACCS ECFP Morgan 二维图像 Chemception DEEPScreen 二维图 AquaSol Weave 空间模态（三维）距离或接触矩阵 Distogram OnionNet 三维指纹 ECIF PLIF E3FP 三维图像与三维图 Pafnucy SchNet DimeNet 时间模态（四维）时间依赖指纹 MD-IFP 时间依赖接触矩阵 CASTELO 时间依赖图 MD-Graph 知识图谱与多模态融合知识增强 OntoProtein KeAP ProtST 多模态知识图谱 OtterKnowledge BioBridge 融合策略早期融合中间融合后期融合序列模态（一维）序列模态通常把分子写成线性字符串，用原子符号及其相关属性来编码分子，相邻原子之间的连接关系往往以隐式方式体现在字符串规则中。这类表示紧凑且高效，能够直接借用自然语言处理领域的技术进展。小分子字符串表示 SMILES（Simplified Molecular Input Line Entry System）是最流行的小分子字符串表示方法。SMILES通过遍历分子图获得，具有非唯一性（同一化合物可有多个SMILES字符串）但明确性（给定SMILES字符串对应单一化合物）的特点。 SMILES的扩展和变体： SMARTS（SMILES Arbitrary Target Specification）：增加了额外的符号来帮助指定子结构模式 SELFIES（Self-Referencing Embedded Strings）：专注于提供鲁棒表示，始终代表有效分子 InChI（International Chemical Identifier）：开源的唯一标识符，但可能存在歧义 InChIKey：InChI的哈希版本，用于网络和库搜索 MolFormer是一个基于 transformer 的基础模型，在来自 ZINC 和 PubChem 数据集的超过10亿条 SMILES上训练。作为基础模型，MolFormer可以在更小的数据集上微调，用于光谱预测、溶解度预测和毒性预测等任务。蛋白质序列表示蛋白质这类大分子通常用核苷酸序列或氨基酸序列来定义。在本文讨论的表示学习语境中，更常见的是氨基酸序列。氨基酸由氨基、羧基和侧链组成，是肽和蛋白质的基本构件，常用单字母符号或三字母缩写表示。已知遗传密码编码22种蛋白源性氨基酸，其中通常包括20种常见氨基酸和2种较少见的氨基酸。对蛋白质序列进行聚类和划分，已被证明是解析蛋白质序列的重要工具，因为蛋白质之间往往存在源自共同进化起源的同源性。为避免数据泄露和过拟合，聚类时通常希望增大训练集与保留评估集内部的同类相似性，而在划分任务中则往往需要控制甚至降低训练集与评估集之间的相似性。多序列比对（MSA）是一类对齐与聚类方法，可用于评估未知序列的分子系统发育关系，并估计序列之间的进化相似性与分化程度。蛋白质语言模型： ESM（Evolutionary Scale Modeling）：通过掩码重建学习特定氨基酸出现在序列中的概率，从原始序列中捕获共进化和残基间接触信息 ProteinBERT：与 ESM 类似的蛋白质语言模型除这类纯序列预训练模型外，原文还提到像HPNN这样的表示，会在每个残基上附加一个向量，用来表示其对其他残基的注意力，因此更接近结合序列与结构关系的信息表示，而不只是标准的蛋白质语言模型。数据划分策略由于SMILES的非唯一性以及大型数据集中的固有冗余，有意义地划分数据以避免机器学习模型的过拟合非常重要。常用的划分策略包括：简单划分：确保相同的化合物不会同时出现在训练和测试折中骨架划分：MoleculeNet实现的基于二维结构框架划分数据的方法相似性划分：考虑分子相似性的更鲁棒的划分方法拓扑模态（二维）拓扑模态利用扩展的成键信息，或直接采用分子图像的形式，来表示分子中的原子及其局部环境。这类表示通常与向量化机器学习模型或基于图像的机器学习模型配套使用。二维指纹二维指纹包括扩展连接信息，主要分为两类：结构密钥是编码不同化学基团存在与否的二进制字符串。MACCS keys（也称为MDL keys）是二维结构密钥的流行例子，包含166个密钥，每个密钥编码分子中的特定结构特征或原子排列。哈希指纹是从分子图映射的物理化学或结构属性的编码向量，可分为：基于拓扑或路径的指纹：如Daylight指纹环形指纹：如ECFP和Morgan指纹 ECFP（Extended Connectivity Fingerprints，扩展连接指纹）考虑每个原子的二维圆形环境，直到给定直径。通过选择圆形原子邻域的最大直径值，可以生成不同类型的ECFP。最常用的是直径为4或6，生成ECFP4和ECFP6指纹。ECFP的变体FCFP编码原子的功能或角色。如果要更直观地理解，ECFP的构造思路可以概括为：以每个原子为中心，逐层向外看它在二维拓扑上的邻居设定一个最大直径，决定“看多远”，这就对应ECFP4、ECFP6这类不同版本把每个局部原子环境编码后汇总，形成整分子的指纹向量因此，ECFP本质上是在统计“某类局部结构片段是否出现，以及出现了哪些”，只是这里的片段不是人工手写规则，而是围绕原子自动枚举得到的。二维图像分子图像主要用于可视化目的，而一些研究工作将其用作AI模型的输入形式。这主要得益于深度神经网络在计算机视觉应用中展现的令人印象深刻的成功。作为二维图像，分子通常由其骨架结构表示。分子图像的布局和渲染属性的标准化具有挑战性，无论是出于可视化还是基于AI的计算目的。基于图像的深度学习方法： Chemception：通过深度卷积神经网络（CNN）预测化学性质，与基于专家特征的模型相当 DEEPScreen：类似方法用于DTI预测，药物候选分子图像输入CNN以预测与给定蛋白靶点的二元活性 ImageMol：在1000万个骨架图上预训练的基础模型，随后在 SARS-CoV-2 数据集上微调用于 DTI 预测空间模态（三维）空间模态利用分子的坐标信息（因此对构象和对称性敏感），包括距离/接触矩阵、三维指纹、三维分子图和三维图像。使用空间模态的药物发现工作流通常被称为基于结构的药物发现（SBDD）。距离/接触矩阵从已知结构构建坐标矩阵以利用三维信息是很自然的。然而，标量属性预测（如亲和力预测、溶解度预测、毒性预测、可合成性预测、蛋白口袋识别等）要求输入数据是旋转和平移不变的（即满足SE（3）对称性），而原始的三维坐标不满足这一要求。预处理三维坐标以满足SE（3）对称性的一种方法是将坐标转换为距离，从而得到距离矩阵。使用距离矩阵作为特征以及各种神经网络的经验是，连续距离通常比分箱距离表现更差。这一观察体现在文献中分箱距离矩阵的主导地位。这几种表示虽然都属于距离或接触矩阵，但构造思路并不完全一样：方法主要编码对象怎么算的直观理解 Distogram（AlphaFold）残基间距离分布不直接保留连续距离，而是把β碳原子之间的距离分到若干区间中；以AlphaFold为例，共使用39个cutoff，因此表示成分箱距离分布矩阵更像“距离落在哪个范围”的概率表示 RF-Score 蛋白-配体粗粒化接触先把蛋白和配体中的原子都粗粒化为9种常见原子类型，再统计12 Å以内不同原子类型对之间出现了多少次接触，因此最多形成$9 \times 9 = 81$维特征用有限类型的接触计数近似三维相互作用 OnionNet 多层接触模式延续按接触数建模的思路，但不是只用一个cutoff，而是在8种原子类型之间引入60个不同截断值，以描述更细的分层接触模式像把蛋白-配体接触按距离一层层“切片”统计这些方法的共同点是：先把原始三维坐标转换为更稳定、更适合学习的距离或接触特征，而不是直接把坐标喂给模型。三维指纹三维指纹和二维指纹的区别很明显：三维指纹利用二维指纹经常省略的结构信息，考虑原子在三维空间中的空间排列以及它们如何相对定位。这几种三维指纹最适合放在一起看，因为它们的关键差别就在于“到底把哪一类三维信息编码成特征”。方法主要编码对象怎么算的直观理解 NNScore 近距离接触、静电作用和配体整体特征使用194维特征，包含2 Å内氢键接触、4 Å内其他近距离接触、4 Å内静电相互作用能、原子类型计数以及配体可旋转键数把“接触强不强、近不近、是否有静电作用”这些信息拼成一个三维指纹 ECIF 蛋白-配体原子对接触把蛋白端22类原子与配体端70类原子两两配对，统计这些原子对在空间中的接触，因此仅接触特征就有$22 \times 70 = 1540$维，另外再叠加RDKit的170个分子描述符更细粒度的蛋白-配体原子对接触统计 PLIF 蛋白-配体相互作用类型不只记录“是否接近”，还记录主链氢键、侧链氢键、溶剂氢键、离子相互作用、金属结合、芳环相互作用等事件更像一张“相互作用事件清单” E3FP 配体三维局部环境和立体化学借鉴ECFP，但不是围绕原子看二维圆形邻域，而是看三维球形邻域，并通过把球体划分为八分体来编码立体化学信息可以看作ECFP的三维版本，重点是显式保留立体信息三维图像虽然对人类来说不容易理解，但三维图像可以看作是二维图像对计算机的扩展。注意三维图像不是旋转不变的，因此不满足SE(3)对称性。在实践中，数据通常通过图像的旋转作为初始输入进行增强。三维图像这几类方法很适合并排看，因为它们的核心差别就在于“体素里到底存了什么信息”。方法空间离散方式通道或特征设计主要任务 Ragoza et al. 24 × 24 × 24 Å 网格，分辨率 0.5 Å 按 smina 原子类型把蛋白和配体原子画到类RGB通道中蛋白-配体相互作用预测 DeepSite 16 × 16 × 16 体素网格 8个通道对应化学性质，而不是具体原子类型蛋白结合位点预测 Pafnucy 体素网格每个原子附加19类描述特征，再映射到体素表示蛋白-配体结合亲和力预测如果进一步看它们“怎么算”： Ragoza et al.：先把蛋白和配体复合物离散到三维网格中，再根据 smina 原子类型把原子投影到不同通道；体素占据程度由结合高斯项和二次项的密度函数决定，并结合原子的空间位置和范德华半径来计算 DeepSite：同样先把空间切成体素，但8个通道不再表示具体原子类型，而是表示疏水性、芳香性、氢键受体、氢键供体、正离子化、负离子化、金属原子以及排斥体积。原文还提到，体素占据值是结合原子范德华半径，通过指数形式计算的 Pafnucy：不是只问“这个体素里有没有原子”，而是进一步给原子附加19类属性特征，例如原子类型、杂化、重原子价、杂价、疏水性、芳香性、氢键供受体、环原子、部分电荷，以及它属于配体还是蛋白。也就是说，Pafnucy的体素表示比普通占据图更“富特征” 三维分子图分子图与早期图神经网络（GNN）方法密切相关，后者最初面向分子、图像以及部分 Web 结构数据等对象。分子图在节点和边中存储信息，节点存储关于所代表单元（原子或残基）的信息，边存储关于连接关系（相邻单元、键类型和键属性等）的信息。二维和三维分子图的区别在于是否使用三维坐标信息来构建图（在节点或边中）。无向图在当前分子图应用中占主导地位。这几种分子图方法同样适合表格化，因为区别主要体现在“节点和边里装了什么，以及几何信息怎样进入模型”。方法图的类型节点和边怎么定义几何信息怎么进入模型 AquaSol 无向二维分子图节点只包含配体原子类型，边只包含键类型基本不显式使用三维几何，更像最简图表示 Weave 无向二维分子图节点有27个描述符，如原子类型、手性、形式电荷、部分电荷、环大小、杂化、氢键和芳香性；边有12个描述符，如键类型、图距离以及两个原子是否同环仍以二维拓扑为主，不显式编码三维坐标 SchNet 无向三维分子图节点包含原子属性和笛卡尔坐标信息不直接生硬使用原始坐标，而是先转成原子间距离，再用径向基函数展开，从而保留几何信息并更容易满足SE(3)对称性 DimeNet 有向三维分子图在图消息传递中显式考虑原子三元组在距离之外进一步加入原子三元组之间的夹角，并配合 Fourier-Bessel 基函数，因此比SchNet更强调局部几何构型从主线上看，AquaSol / Weave 更接近“二维拓扑图怎么编码”，而 SchNet / DimeNet 更接近“如何把三维几何稳定地注入图网络”。进一步说，SchNet 主要编码“距离信息”，而 DimeNet 在距离之外，还进一步显式编码“角度信息”。时间模态（四维）时间模态添加时间依赖信息，包括时间序列中的接触、构象时间序列、构象灵活性和熵项。分子动力学（MD）模拟中的时间在估计构象的熵和配体结合动力学中起着关键作用。时间依赖指纹 MD-IFP利用PLIF和两个动态特征：（1）配体第一溶剂化壳层中的水分子数；（2）配体与参考（结合）位置的均方根位移（RMSD）。这些四维指纹从数十个短MD模拟（1 ps）收集的数百个快照中计算，然后应用k-means聚类。随后的聚类用于计算不同状态的驻留时间，与实验结果有良好相关性。它的思路可以理解为：先对每个MD快照计算一个“瞬时相互作用指纹”，再把许多快照串起来看其随时间如何变化。相比静态PLIF，MD-IFP多加了两类动态信息：配体周围第一溶剂化壳层中的水分子数，反映局部溶剂环境配体相对参考结合构象的RMSD，反映结合姿态是否稳定随后再对这些时间序列快照做聚类，并用聚类结果估计不同状态的驻留时间。因此，MD-IFP并不是单帧的三维指纹，而是把相互作用模式和动态稳定性一起编码进四维表示。时间依赖接触矩阵代表方法： Ribeiro et al.：使用时间依赖接触特征（从RAVE实现的序参数）与变分自编码器架构来选择蛋白-配体相互作用的关键接触特征的线性组合，这些特征随后通过metadynamics验证，以观察通常具有分钟或更长timescale的罕见蛋白-配体解离 CASTELO：构建“时间接触矩阵”，矩阵的一半是时间依赖配体-残基接触数矩阵，另一半是从t到t + δ的接触数增量矩阵，与无监督卷积变分自编码器（CVAE）和HDBSCAN聚类方法配对，识别分子中被认为不稳定的热点区域时间依赖图 MD-Graph：提出基于MD轨迹的时间依赖图，其中每一帧由一个连接图表示，该连接图由二维配体图和具有12个截断距离的三维蛋白-配体相互作用图连接而成，预测的softmax值在所有帧上平均以计算损失函数，这些MD-图随后用GCN训练以预测HLA-肽复合物免疫原性表1：分子表示方法快速参考数据模态子类别代表方法关键特征序列模态（一维）小分子字符串 SMILES, SELFIES, InChI, MolFormer 紧凑高效，利用NLP技术蛋白质序列 ESM, ProteinBERT 蛋白质语言模型，捕获共进化信息拓扑模态（二维）二维指纹 MACCS, ECFP, Morgan 固定长度向量，快速计算二维图像 Chemception, DEEPScreen 类似CNN处理视觉图像二维图 AquaSol, Weave 节点和边存储原子和键信息空间模态（三维）距离/接触矩阵 AlphaFold (Distogram), RF-Score, OnionNet 分箱距离，粗粒化接触三维指纹 NNScore, ECIF, PLIF, E3FP 包含空间排列和相互作用信息三维图像 DeepSite, KDEEP, Pafnucy 体素网格，需要数据增强三维图 SchNet, DimeNet, GemNet 满足SE(3)对称性，消息传递机制时间模态（四维）时间依赖指纹 MD-IFP 驻留时间与实验相关时间依赖接触矩阵 Ribeiro et al., CASTELO 序参数，识别热点区域时间依赖图 MD-Graph MD轨迹的图表示知识图谱知识增强学习 OntoProtein, KeAP, ProtST 整合GO功能、生物医学文本多模态知识图谱 OtterKnowledge, BioBridge 跨模态对齐，归纳学习多模态融合早期/中期/后期融合 GraphMVP, MDeePred, CPAC 聚合不同模态的嵌入知识图谱积累的科学知识是知情决策构建的基础，特别是在生命科学和治疗学领域。科学数据分散在多个来源，本质上是异构的，涵盖多组学数据、公开可用的知识库、实验、药理学测量、临床数据和科学文献。知识图谱正逐渐成为一种关键工具，它不仅能整合来自异构来源的丰富事实知识，也有助于推动多模态学习。通过利用图拓扑（关系），知识图谱可以帮助对齐不同模态的嵌入空间。知识图谱的基本概念知识图谱可以形式化描述为有向标注图$G = (V, E)$，其中顶点或具有唯一标识符的节点代表感兴趣的现实世界实体（如蛋白质、基因、化合物、细胞组分、通路），而边代表实体之间的关系（如结合、关联、类型等）或实体的数据类型属性（如分子功能、分子的质量、蛋白质的描述）。这些关系通常以RDF三元组的形式表达，也就是“主体—谓词—客体”这样的结构化关系句。例如，“药物X—作用于—蛋白Y”就是一个最简单的三元组例子。知识图谱嵌入在图表示学习中，研究者利用图的拓扑结构（实体及其关系）学习紧凑的向量嵌入，使具有相似特征的节点在向量空间中彼此靠近。评分函数用于衡量三元组在知识图谱中的合理性，真实三元组得分较高，错误或损坏的三元组得分较低。这些优化后的嵌入随后可用于训练各种下游任务模型。传统知识图谱嵌入模型（KGE）通常是直推式的，不太适合归纳链接预测。这里的链接预测，指的是预测两个实体之间是否应该有一条关系边。这在药物发现场景中至关重要，因为涉及训练期间未见过的节点的预测。归纳图神经网络方法非常适合通过几何关系捕获跨模态依赖和异构实体类型之间的多样化相互作用类型。它们能够以归纳方式学习实体（对于该实体，许多边可能作为其他实体的主体和客体存在）、边或子图的表示。知识增强的表示学习代表方法： OntoProtein：将基因本体GO（包含基因功能信息）的综合文本数据注入到用于序列的预训练蛋白质语言模型（PLM）中，通过重建掩码氨基酸来微调PLM，同时最小化蛋白质的上下文表示与相关GO功能注释之间的嵌入距离 KeAP：比OntoProtein更细粒度的token级方法，其中非掩码氨基酸迭代查询相关知识token以收集信息（来自GO）以通过交叉注意力恢复掩码氨基酸 ProtST：采用由生物医学文本中的文本属性描述增强的蛋白质序列数据集，联合训练PLM和生物医学语言模型多模态知识图谱 OtterKnowledge和BioBridge是利用多模态知识图谱整合不同来源、不同模态知识的代表性归纳方法。两种方法都先用预训练的单模态模型计算各模态的初始嵌入，再学习如何在多模态知识图谱中完成不同模态之间的转换或融合，同时保持这些单模态基础模型参数固定。代表方法： OtterKnowledge：从实体本身及其相邻实体中任意数量、任意组合的已知模态出发，学习图中每个实体的表示。知识图谱仅在训练阶段使用，而在推理阶段，这些知识增强后的预训练模型可直接用于下游机器学习任务，以提高预测准确性 BioBridge：在训练期间基于 PrimeKG 对单模态模型或单模态基础模型的嵌入空间进行跨模态对齐。它使用蛋白质、分子、生物过程、分子功能、细胞组分和疾病等实体类型之间的三元组，并将信息归为三种模态：蛋白质序列、SMILES，以及其他实体类型对应的自然语言描述多模态融合策略数据模态的选择药物发现涉及探索极其庞大的候选物空间。AI可以通过预测和生成模型发挥关键作用，用于在进入昂贵实验之前缩小最有希望的候选物（例如可以与靶蛋白结合的小分子）。利用预测和生成模型进行候选物生成的关键在于学习蛋白质靶点、分子和疾病等实体的有效表示。目前尚无共识认为哪种数据模态能带来普遍更优越的模型性能。一个假设是任务（如二级结构预测）可能需要分子表示和机器学习算法的特定组合以获得优化性能。要找出哪种组合是最优的，提供公正的基准测试过程以比较数据模态和机器学习算法至关重要。高维不一定更好：分子建模启发的三维指纹和代数拓扑启发的三维指纹尚未被时间模态实现时间作为一个额外维度，尚未系统地证明对预测任务有帮助即使三维图可以看作是二维指纹（存储在节点中）和三维指纹（存储在边中）的组合，三维图可能并不总是优于其组成的二维/三维指纹多模态融合方法如果把前面的单模态表示看成不同的信息入口，那么这里讨论的就是这些入口如何在模型里会合。下图概括了本文讨论最多的几条路径。 graph TB A["单模态输入 序列、拓扑、空间、时间"] --> B["模态编码器 得到各自嵌入"] B --> C["早期融合 先拼接特征再建模"] B --> D["中间融合 先学单模态表示，再学联合表示"] B --> E["后期融合 先独立预测，再组合决策"] B --> F["知识图谱增强 把实体关系和属性一起纳入"] C --> G["下游任务 性质预测、亲和力预测、DTI、生成"] D --> G E --> G F --> H["跨模态对齐 补充结构化知识"] H --> G 非知识图谱方法的多模态融合 Stahlschmidt et al. 将多模态融合策略分为三类：早期融合：简单连接每个输入数据模态的向量作为输入中间融合：先学习每个模态各自的表示以捕获模态内相关性，再在潜在空间中融合这些表示以学习联合表示后期融合：组合每个模态的子模型所做的决策早期融合示例： Zhang et al.：使用多模态深度信念网络（DBN）结合一维序列、二维指纹（特定二级结构）和三维指纹（三级结构）以预测RNA结合蛋白的结合偏好 GraphMVP：通过对比学习结合二维配体图和三维几何图，从二维图重建三维图，从而连接模态中间融合示例： MDeePred：在深层潜在空间中结合二维配体指纹（ECFP4）和基于一维蛋白质序列的能量矩阵表示 CPAC：结合基于一维蛋白质序列的表示（HPNN）和三维蛋白质图 Jones et al.的研究比较了不同融合方法，结合三维图像和三维图与各种融合策略，其中早期融合策略在亲和力预测任务上优于其他方法，而后期融合策略平均表现与中间融合策略相当。挑战与未来方向重用传统QSAR描述符用于深度学习任务一维和二维模态（如SMILES和二维指纹）已被QSAR方法广泛使用并已适应深度学习算法。然而，三维或更高维的描述符（如CoMFA、CoMSIA、G-WHIM和VolSurf）在深度学习相关研究中较少使用（显著少于三维图和三维指纹）。作者怀疑，这是由于传统QSAR领域和新兴深度学习领域之间的“知识壁垒”造成的，其原因可能包括付费软件带来的使用门槛、难以获取或高度领域化的文档，以及两个研究社区之间不够理想的交流。尽管如此，作者也认为这一问题有望随着领域发展而逐步缓解。 MD轨迹在机器学习任务中的最佳实践 4D-QSAR和四维模态的机器学习任务面临类似问题——包含多个分子构象的数据集相对罕见。因此，MD模拟（以及其他模拟）提供了理想替代方案来补充数据稀缺性。如上所述，目前时间依赖的机器学习主要集中在聚类和MD特征学习上。对于预测任务，CASTELO使用聚类结果之间的比较指标并利用来自MD轨迹的分子灵活性信息预测分子中的热点。MD-Graph在聚合结果以进行免疫原性预测之前用GCN处理每一帧。这两种方法都可以归类为“后期融合”方法，假设四维模态学习是一个多模态融合问题。因此，探索四维模态的早期融合和中间融合策略将是有趣的。此外，收集MD轨迹相对耗时。构建MD轨迹数据库将有助于四维模态的机器学习的进一步发展。将知识整合到现有模型中需要更高效和可扩展的框架挑战在于将从许多来源提取和编码的信息融合到向量表示中，并将大量知识有效注入机器学习和大型语言模型中，这可能反过来帮助探测或提供LLM输出的来源。这需要实现高效且可扩展的训练与推理框架，能够处理大规模知识，包括规模（即三元组数量）和异构性（即词汇表规模、关系类型和属性类型的复杂性）。知识图谱存储的管理，包括演化和维护，本身也是一个活跃研究方向，其性能在生物医学场景中也已有系统研究。然而，缺乏原生支持不同模态和/或基于该模态计算嵌入的图存储。大型多模态知识图谱对所有基于嵌入的链接预测技术都具有挑战性；多模态嵌入并不显著更差，因为它们被视为额外的三元组。尽管如此，多模态编码器/解码器的训练成本更高。通常需要批处理、分区和采样等技术进行训练，例如在OtterKnowledge中使用GAS方法扩展训练。探索超越语言和视觉的多模态研究虽然多模态知识图谱研究主要集中在语言（文本）和视觉（图像）上，但需要深入研究跨不同模态和领域的多模态研究，特别是对于药物发现。此外，这可能涉及具有多个目标的多任务训练，如链接预测和数值回归，以及实现多模态补全模型，从更广泛的模态谱中生成缺失的多模态信息，例如文本属性、蛋白质序列或图像。这不仅需要结合编码器来学习用于链接预测的多模态嵌入，还需要神经解码器根据知识图谱中的信息生成缺失的多模态属性。将学习表示泛化到多个下游任务将已学习到的表示泛化到多个下游任务，需要开发鲁棒的训练技术，使模型能够对具有未见模态或缺失模态的实体进行预测，这在药物发现中很常见。这既包括把预训练阶段得到的嵌入迁移到多个下游任务，也包括分析训练阶段与后续任务阶段的数据可用性差异会如何影响模型表现。一个关键方面涉及分析预训练期间可用的数据与后续任务期间可用的数据之间的差异如何影响下游任务。在训练期间，可能与蛋白质或药物相关联许多（多模态）属性，而在下游微调期间，可能需要推断只有氨基酸序列和SMILES可用的蛋白质或配体的属性。多模态融合问题面临的1 + 1 < 2挑战如果目标是在多模态融合中实现叠加式的预测增益，那么每个模态最好在其信息空间中彼此正交。但这在现实中几乎不可能做到。一个简单反例就是 AlphaFold，它可以仅凭一维蛋白质序列预测三维蛋白质结构。换句话说，一维蛋白质序列与三维蛋白质结构之间本身就共享了足够多的信息。然而，这种相关性对大多数机器学习算法并不透明，因此最终常常只带来“轻微增量”的性能提升。若想进一步提高预测能力，一个关键问题是：如何在尽量提供更多信息的同时，减少不同模态之间的冗余。假如描述蛋白-配体复合物的所有可能模态都已被纳入，那么问题就转化为一个更工程化的优化过程，即选择合适的模态组合以及与之兼容的机器学习算法。模态崩溃是训练数据中的不平衡和标签呈现长尾分布的挑战，即一小部分标签常见，有大量训练样本，而大多数标签不频繁甚至从未出现过。此外，分子的结构模态可能为表示学习提供有价值的见解，但某些模态（如三维图像）的稀疏性可能导致收益相对较小。一个潜在问题是模态崩溃，即在多模态融合或知识图谱训练过程中，只有一部分最有帮助的模态占据主导地位，导致模型过度依赖这些模态，而忽视其他模态的信息。这种学习过程中的不平衡，或某些模态数据不足，都可能导致次优表示。此外，多模态数据质量不佳，以及来自多个来源的知识图谱本身稀疏且不完整，也都可能引入偏差。跨未对齐异构数据集的学习表示当在具有略有不同模式的数据库上依次训练模型时，可能会发生灾难性遗忘；模型在从新数据库学习时可能会忘记它在前一个数据库中学到的所有内容。源模式之间的对齐不是一个小问题，即使一个数据源中的关系可能与另一个数据源中的关系共享一些相似性；由于它们不完全相同，不可能将它们视为相同类型的关系。这阻碍了模型在没有明确强制机制的情况下有效地传递这两个关系之间的共性。为了解决这个问题，OtterKnowledge采用集成方法来处理分别在未对齐的知识图谱上训练的预训练模型。然而，集成方法并不实用，因为需要的模型数量随着数据库数量的增长而增长。设计一种动态学习方法，使得模型能够学习跨具有不同模式的数据源进行传递，是一个开放的研究问题。预训练模型的基准测试和可解释性这强调了对公开可用的基准和排行榜的需求，以评估使用不同模态的预训练模型的有效性。如果没有标准化的基准，就很难客观地评估跨模态模型与现有单模态模型在各种任务上的性能比较。尽管MoleculeNet、ChEMBL、DUD-e、DrugBank和BindingDB等数据集已由本章综述的研究用作基准，但已发现数据集偏差导致模型偏差，从而产生误导性结果。持续的数据库维护以及资助持久性竞赛（如CASP、CAPRI、CAFA和D3R）非常重要。此外，模型输出的可解释性缺乏限制了它们的实际适用性。基于注意力的GNN已被用于增强分子性质预测的可解释性。对于知识图谱，一个有趣的研究方向是探索知识图谱嵌入模型和神经符号方法如何增强模型决策背后的可解释性或理解。关键结论与未来展望主要贡献本文系统性地梳理了药物发现中的分子表示方法，提出了基于蛋白质结构层次的四维模态分类体系，为理解和选择分子表示提供了一个更统一的物理框架。从序列到时间，从单模态到多模态融合，从数据驱动到知识增强，这一领域的表示方法正在持续扩展。方法学进展表示学习的演进：从人工设计的QSAR描述符到数据驱动的深度学习表示，再到大规模预训练的基础模型，分子表示的表达能力和泛化能力不断提升多模态融合的多样化：早期融合、中间融合和后期融合策略各有优势，选择需要考虑具体任务和数据特性知识增强的前景：知识图谱为整合异构数据源和领域知识提供了有效途径，OtterKnowledge和BioBridge等方法展示了知识增强表示学习的潜力基础模型的崛起：MolFormer、ESM等基础模型在海量数据上预训练，并在多个下游任务中展现出较强的迁移能力挑战与局限模态选择的困境：缺乏明确的指导原则来选择适合特定任务的数据模态，高维表示不一定带来更好的性能多模态融合的复杂性：信息冗余、模态崩溃、长尾分布等问题限制了多模态融合的有效性知识整合的难度：高效可扩展的知识增强框架仍在发展中，跨未对齐数据集的学习表示是开放问题评估标准的不统一：缺乏标准化的基准测试和评估体系，不同研究之间难以公平比较可解释性的不足：深度学习模型的黑箱特性限制了其在药物发现等高风险领域的应用未来方向探索新的表示形式：继续挖掘可能被忽视的重要分子表示，特别是传统QSAR描述符和四维模态优化多模态融合策略：开发能够有效提取正交信息、避免模态崩溃的融合算法构建高效知识框架：实现大规模知识图谱与深度学习模型的无缝集成，支持知识的注入和推理建立统一评估体系：开发标准化基准和评估指标，促进不同方法的公平比较增强模型可解释性：结合神经符号方法、注意力机制等提高模型透明度，建立可信AI 打破领域壁垒：促进传统计算化学与现代深度学习领域的交流与合作，加速方法创新药物发现中的分子表示学习是一个快速发展的领域。随着新方法的涌现和旧方法的重新审视，结合合适的领域知识、模态组合和算法设计，机器学习辅助药物发现仍有很大的发展空间。

Machine Learning & AI · 2026-03-27

整合qHTS与QSAR：筛选hERG风险较低的GPCR先导化合物

整合qHTS与QSAR：筛选hERG风险较低的GPCR先导化合物本文信息标题：整合qHTS和QSAR模型以识别安全的GPCR靶向化合物：关注hERG依赖性心脏毒性作者：Xi Luo, Jinghua Zhao, Srilatha Sakamuru, Menghang Xia, Tuan Xu, Jameson Travers, Carleen Klumpp-Thomas, Hu Zhu, Matthew D. Hall, Stephen S. Ferguson, David M. Reif, Ruili Huang 发表时间： 2026年2月17日单位：美国国家推进转化科学中心（NCATS）、北卡罗来纳大学等（美国）引用格式： Luo, X., Zhao, J., Sakamuru, S., Xia, M., Xu, T., Travers, J., Klumpp-Thomas, C., Zhu, H., Hall, M. D., Ferguson, S. S., Reif, D. M., & Huang, R. (2026). Integrating qHTS and QSAR Models to Identify Safe GPCR-Targeted Compounds: A Focus on hERG-Dependent Cardiotoxicity. Journal of Chemical Information and Modeling, 66(7), 2474–2487. https://doi.org/10.1021/acs.jcim.5c02291 相关工具：ChemoTyper（ToxPrint chemotypes）https://github.com/mn-am/chemotyper 摘要 G蛋白偶联受体是七跨膜受体家族，通过G蛋白介导细胞外信号转导，在多种生理和神经过程中发挥关键作用。ADRB2、CHRM1、DRD2和HTR2A等重要GPCR靶点，与哮喘、精神分裂症等疾病的治疗密切相关。然而，许多靶向GPCR的药物会抑制hERG钾离子通道，导致QT间期延长，也就是心电图上反映心室去极到复极全过程的时间变长，并增加心律失常风险。本研究整合定量高通量筛选和基于机器学习的定量结构活性关系模型，采用不同的数据处理顺序预测hERG风险较低的选择性GPCR靶向化合物。模型在Tox21 10K化合物库上训练，经LOPAC数据集，即Library of Pharmacologically Active Compounds，外部验证，随后用于虚拟筛选约36万个多样化化合物，并对预测排名靠前的化合物进行实验验证，发现了多个hERG风险较低的新型GPCR调节剂。核心结论 hERG毒性普遍存在：在GPCR活性化合物中，尤其是拮抗剂模式中，hERG抑制剂的占比接近或超过50%的GPCR活性拮抗剂，强调在GPCR药物开发中监测hERG抑制的重要性双模型策略有效：Model 1和Model 2都能给出稳定预测，最优模型的AUC-ROC可达AUC-ROC值0.84以上共识模型成功筛选：使用四种ML算法（RF、SVM、NB、XGB）的共识策略筛选1408个CHRM1预测活性化合物，实验验证显示激动剂PPV达阳性预测值0.72，拮抗剂PPV达阳性预测值0.91，hERG模型的NPV为阴性预测值81.6% 发现新型先导化合物：鉴定出多个具有微摩尔级活性的CHRM1激动剂和拮抗剂，且hERG抑制较弱，说明这套流程适合用于早期候选物优先级排序背景 G蛋白偶联受体是最大的细胞表面受体家族，跨越细胞膜七次，通过细胞外环与配体结合，通过细胞内环与G蛋白相互作用。GPCR在各种生理和神经过程中至关重要，是哮喘、阿尔茨海默病、帕金森病、精神分裂症等多种疾病的治疗靶点。例如，β2肾上腺素受体激动剂如沙丁胺醇用于治疗哮喘，毒蕈碱乙酰胆碱受体M1激动剂如占诺美林可改善阿尔茨海默病的认知功能，多巴胺D2受体激动剂如普拉克索用于帕金森病，5-羟色胺受体2A拮抗剂如氯氮平用于精神分裂症。然而，许多靶向GPCR的药物与心脏毒性副作用相关，这主要归因于它们对hERG（human Ether-à-go-go-Related Gene）钾离子通道的抑制作用。hERG编码Kv11.1，是延迟整流钾通道快速组分的α亚基，对心脏复极化至关重要。抑制hERG通道会导致QT间期延长。这里的QT间期，指的是心电图中从Q波起点到T波终点的一段时间，可粗略理解为心室完成一次电活动所需的时间。这个时间一旦拉长，就会增加尖端扭转性室性心动过速等严重心律失常的风险，可能进展为室颤和猝死。因此，hERG抑制是药物淘汰和市场撤市的主要原因，FDA要求几乎所有新的低分子量药物都必须进行“全面QT”研究以评估其对QT间期延长的影响。在药物开发早期识别hERG抑制对于预防心脏毒性、提高药物安全性、确保监管合规和优化药物开发过程至关重要。定量高通量筛选是一种强大的工具，可用于识别各种分子靶点的新型先导化合物。Tox21计划应用qHTS测试了约10000个药物和环境化学物质（Tox21 10K化合物库），涵盖约80个体外实验，包括核受体、应激反应通路、GPCR以及其他毒性相关靶点。重要的是，扩展的Tox21实验组合还包括专门的hERG通道抑制实验，提供了关键心脏毒性终点的直接测量。Tox21实验数据已用于构建毒性预测模型以及识别疾病靶点的新型先导化合物。基于机器学习的定量结构活性关系模型是传统湿实验室实验的实用且有效的替代方案，已被用于虚拟筛选大型化学库，以识别GPCR激动剂、拮抗剂以及hERG抑制剂。qHTS实验数据为开发ML模型提供了稳健的数据集，用于预测小分子对不同靶点，如GPCR与hERG的活性和选择性。先前研究已经报道，ML模型可以成功识别具有GPCR活性和hERG抑制活性的分子。然而，设计用于识别GPCR活性化合物的机器学习模型也可能同时选出抑制hERG的候选物。因此，需要在药物发现早期优先考虑兼具GPCR活性和较低hERG风险的虚拟筛选方法。关键科学问题 GPCR药物的心脏毒性风险：许多靶向GPCR的药物会抑制hERG通道，导致QT间期延长和心律失常，如何在药物开发早期有效识别和排除hERG抑制剂？选择性预测的挑战：如何构建能够同时预测GPCR活性和hERG抑制的机器学习模型，以筛选出具有选择性的安全先导化合物？数据不平衡问题：在GPCR活性化合物中，hERG抑制剂的比例很高（尤其是拮抗剂），如何处理这种数据不平衡并训练稳健的分类模型？模型泛化能力：如何确保模型在化学结构多样的化合物库中保持良好的预测性能，并成功应用于外部验证和大规模虚拟筛选？创新点双模型策略：提出两种不同的建模策略，Model 1分别为8个GPCR靶点和hERG构建独立模型，Model 2在构建GPCR模型前排除hERG抑制剂，系统比较了两种策略的性能整合qHTS与QSAR：利用Tox21 10K化合物库的qHTS数据构建ML模型，结合ECFP4指纹和多种ML算法，实现了从高通量筛选数据到虚拟筛选的有效转化共识模型筛选：采用四种ML算法（RF、SVM、NB、XGB）的共识策略筛选约36万个化合物，并通过严格的hERG排除阈值0.3（预测概率≥预测概率阈值0.3）降低心脏毒性风险实验验证成功：对模型预测的CHRM1活性化合物进行实验验证，发现了多个具有微摩尔级活性且无明显hERG抑制的新型先导化合物，验证了模型的实用性研究内容本研究整合定量高通量筛选和机器学习QSAR模型，旨在开发能够预测选择性GPCR靶向化合物，即hERG风险较低候选物的计算方法。研究针对四个重要的GPCR靶点，即ADRB2、CHRM1、DRD2和HTR2A的激动剂和拮抗剂模式，采用两种不同的数据建模流程，即Model 1和Model 2构建分类模型，通过Tox21 10K化合物库的qHTS数据训练，LOPAC数据集外部验证，最终应用于NCATS内部约36万个化合物的虚拟筛选，并对预测排名靠前的化合物进行实验验证。方法详述数据来源 Tox21 10K化合物库包含8599个独特化合物，其中约3000个为获批药物。研究通过qHTS获得四个GPCR靶点，即ADRB2、CHRM1、DRD2和HTR2A的激动剂与拮抗剂活性数据，以及hERG通道抑制数据。每个化合物都在15个浓度下进行三重复测试。数据处理流程曲线分级：根据浓度-响应曲线观察到的形状分配类别（1.1-1.4和2.1-2.4为活性，3为活性，4为非活性）曲线秩次：转换为-9到9之间的整数，秩次越高表示曲线质量、效力和有效性越高。抑制剂分配负秩次，激活剂分配正秩次活性判定：基于平均曲线秩次和三次重复实验的重现性，将化合物分配为“活性激动剂/拮抗剂”、“非结论性激动剂/拮抗剂”、“非结论性”或“非活性” 图1：模型构建和外部验证的数据集与框架图1A：hERG抑制剂（橙色段）在八个数据集的活性GPCR化合物中的分布（包含橙色和蓝色段的柱子），包括ADRB2、CHRM1、DRD2和HTR2A的激动剂和拮抗剂图1B：GPCR实验数据中活性和非活性化合物的分布图1C：两种ML模型使用的数据集中活性和非活性化合物的分布，Model 1分别为8个GPCR靶点和hERG构建独立模型，Model 2从GPCR活性化合物中排除hERG抑制剂图1D：外部验证数据集（LOPAC）中活性和非活性化合物的分布图1E：虚拟筛选约36万个多样化化合物并对选定的预测进行实验验证的流程这张图把整篇文章的逻辑压缩得很清楚。图1A先说明问题本身，即活性GPCR化合物里混有大量hERG抑制剂；图1C再展示两种建模流程的差别；图1D和图1E则对应外部验证与大规模虚拟筛选，基本就是全文的方法主线。双模型建模策略本研究采用两种不同的建模流程来预测选择性GPCR靶向化合物： graph TB subgraph S2["Model 2：预先排除策略"] direction TB B1["Tox21 10K数据集"] B2["识别hERG抑制剂 并从GPCR活性中排除"] B3["8个GPCR数据集 已排除hERG抑制剂"] B4["训练8个GPCR模型 只包含非hERG抑制剂的GPCR活性化合物"] B5["预测GPCR活性 默认低hERG风险"] B1 --> B2 B2 --> B3 B3 --> B4 B4 --> B5 end subgraph S1["Model 1：分别建模策略"] direction TB A1["Tox21 10K数据集"] A2["8个GPCR数据集 ADRB2/CHRM1/DRD2/HTR2A 激动剂+拮抗剂"] A3["hERG抑制剂数据集"] A4["独立训练9个模型 8个GPCR模型 + 1个hERG模型"] A5["独立预测 GPCR活性 + hERG抑制"] A1 --> A2 A1 --> A3 A2 --> A4 A3 --> A4 A4 --> A5 end Model 1采用分别建模策略，为8个GPCR靶点和hERG构建独立的分类模型，优点是灵活性高，可根据实际需求调整GPCR活性和hERG毒性的权重。Model 2采用预先排除策略，在训练GPCR模型前先排除hERG抑制剂，直接训练选择性模型，优点是简化后续筛选流程。通过对比两种策略，可以系统评估先识别活性、再剔除hERG风险与直接训练选择性模型的优劣。分子描述符 ECFP4（Extended Connectivity Fingerprints 4）为1024位指纹，编码局部原子环境，如原子类型、芳香性、环成员、杂原子和键序，用来捕获常见亚结构特征。机器学习算法算法作用特点朴素贝叶斯概率分类器，假设特征之间相互独立随机森林集成学习方法，通过多棵决策树投票得到结果支持向量机通过寻找最优超平面拉开不同类别间隔 XGBoost 梯度提升树方法，迭代优化分类误差模型评估项目设置交叉验证 5折分层交叉验证，重复10次性能指标 AUC-ROC、平衡准确率、马修斯相关系数类别平衡在训练集上使用随机欠采样共识策略使用四种经过验证的机器学习分类器，即RF、SVM、NB和XGB，在Tox21 10K化合物库上训练并经LOPAC数据集外部验证的模型，对NCATS内部约36万个化学多样性化合物进行虚拟筛选。如果四个模型独立给出的活性概率都高于各自阈值，化合物才会被判定为GPCR活性。 hERG排除为最大限度降低心脏毒性风险，研究统一使用hERG排除阈值0.3：凡是预测hERG抑制概率大于等于阈值0.3的化合物都会被排除。由于资源限制，最终每个GPCR靶点只保留约2000个候选，优先进入实验的是预测GPCR活性更高、预测hERG风险更低的那一批。实验验证基于四种ML模型的预测概率，研究选择模型预测的CHRM1活性化合物进行实验验证。总计测试1408个化合物，其中包括382个预测激动剂和1037个预测拮抗剂，另有12个化合物同时被预测为激动剂与拮抗剂。这些样品随后在CHRM1激动剂模式、CHRM1拮抗剂模式和hERG抑制实验中接受测试。结果与分析 hERG毒性在GPCR药物中的普遍性图1A揭示了hERG抑制剂在GPCR活性化合物中的广泛分布。例如，在45个ADRB2活性激动剂中，有13个化合物是hERG抑制剂。在其他GPCR活性化合物中也发现了大量的hERG抑制剂，尤其是在拮抗剂模式实验中，接近或超过50%的GPCR活性拮抗剂也抑制hERG。这种高比例的hERG毒性表明，单纯筛选GPCR活性化合物不足以确保药物安全性，必须同时评估hERG抑制风险。模型训练性能评估图2：Model 1（左）和Model 2（右）的性能使用四种ML算法（NB、RF、SVM和XGB）开发的模型通过受试者工作特征曲线下面积（AUC-ROC）、平衡准确率和马修斯相关系数进行评估指标报告为10次5折分层交叉验证中各折的平均值±标准差在每一折中，数据集分为训练和测试子集，对训练数据应用随机欠采样以处理类别不平衡，并通过评估预测概率与测试集对比来计算AUC-ROC、BAC和MCC指标图2的重点不是某一个单独柱子有多高，而是两个关键观察。第一，不同算法之间确实有差异，但多数任务都能维持在可用区间，说明数据本身足以支撑分类建模。第二，Model 2在大多数GPCR任务上的AUC-ROC略高，但这并不自动意味着它在筛掉hERG风险这件事上更好，后面还要结合表2和实验验证一起看。 Model 1与Model 2性能对比靶点 Model 1最佳算法 Model 1 AUC-ROC Model 2最佳算法 Model 2 AUC-ROC ADRB2激动剂 SVM 0.93±0.03 SVM 0.91±0.07 ADRB2拮抗剂 SVM 0.92±0.02 SVM 0.96±0.02 CHRM1激动剂 NB 0.84±0.04 SVM 0.89±0.04 CHRM1拮抗剂 RF 0.94±0.01 SVM 0.96±0.01 DRD2激动剂 SVM 0.88±0.03 SVM 0.90±0.03 DRD2拮抗剂 SVM 0.92±0.02 SVM 0.94±0.03 HTR2A激动剂 SVM 0.84±0.03 SVM 0.86±0.01 HTR2A拮抗剂 SVM 0.92±0.01 SVM 0.94±0.02 hERG抑制剂 SVM 0.91±0.01 NA NA AUC-ROC结果表明大多数模型表现良好，至少有一种ML方法在每个GPCR靶点上达到AUC-ROC>AUC-ROC阈值0.84，在预测hERG抑制剂时达到AUC-ROC=AUC-ROC值0.90 GPCR的AUC-ROC值范围为AUC-ROC下限0.70至AUC-ROC上限0.94，hERG抑制剂的AUC-ROC值范围为AUC-ROC下限0.81至AUC-ROC上限0.91 SVM在大多数GPCR和hERG分类任务中表现最佳，表明其在处理高维分子描述符方面的优势模型稳定性：10次迭代的性能指标（表S1）显示高度一致性，支持模型达到稳定性能。BAC和MCC的最优值遵循与AUC-ROC相同的趋势，即当AUC-ROC值较大时，BAC和MCC也显示较大值。骨架拆分验证为了评估结构泛化能力，研究使用Bemis-Murcko骨架拆分评估了RF和SVM模型。如预期的那样，基于骨架的分区降低了大多数靶点的AUC，反映了预测新型化学类型活性的难度。 CHRM1激动剂和HTR2A拮抗剂观察到最大的下降，可能是由于这些靶点的活性化合物结构多样性有限，限制了骨架特定特征的可转移性。相比之下，包括ADRB2和CHRM1拮抗剂以及DRD2激动剂/拮抗剂在内的几个靶点的模型保持了相对较高的AUC（AUC下限0.80至AUC上限0.89），表明更一致的结构-活性关系。总体而言，骨架拆分分析表明，虽然在严格的骨架分离下性能有所下降，但模型对多个GPCR靶点和hERG抑制保留了有意义的预测能力。结构冗余评估：在使用Tanimoto系数评估LOPAC外部验证集与训练数据之间的结构冗余后，发现630个LOPAC化合物的Tanimoto系数为1，表明可能是重复化合物。这些高相似性化合物可能会高估外部验证性能，因此研究在计算PPV时排除了这些化合物。外部验证结果使用LOPAC数据集（Library of Pharmacologically Active Compounds）作为外部验证集评估了在Tox21 10K数据上训练的模型性能。表1：基于LOPAC实验的两种建模流程外部验证结果 GPCR Model 1最佳算法 Model 1 PPV范围 Model 2最佳算法 Model 2 PPV范围 CHRM1激动剂 SVM 0.41-1.00 SVM 0.47-1.00 CHRM1拮抗剂 SVM 0.65-0.95 SVM 0.64-0.94 HTR2A激动剂 XGB 0.65-0.90 XGB 0.60-0.90 DRD2拮抗剂 SVM 0.74-0.90 SVM 0.73-0.86 ADRB2拮抗剂 RF 0.58-0.81 RF 0.53-0.76 DRD2激动剂 XGB 0.32-0.69 SVM 0.30-0.73 ADRB2激动剂 SVM 0.54-0.64 RF 0.51-0.68 HTR2A拮抗剂 RF 0.14-0.20 RF 0.14-0.23 hERG抑制剂 SVM 0.93 NA NA 外部验证显示大多数模型表现良好，至少有一种ML方法在每个GPCR靶点上达到PPV>PPV阈值0.64（Model 1）或PPV>PPV阈值0.68（Model 2）。SVM在识别hERG抑制剂方面表现突出，Model 1的SVM达到PPV为0.93。值得注意的是，由于原始LOPAC集合中只有5个HTR2A拮抗剂，研究添加了49个经验证的其他活性物质使总数达到54个，产生了更可靠的PPV。表2：GPCR激动剂与拮抗剂的平均hERG抑制效力原文的表2比较了不同靶点、不同模式下化合物的平均hERG抑制强度，以 -LogAC50 表示。这个表很关键，因为它回答的不是谁的分类分数更高，而是模型挑出来的分子到底是不是更不容易打到hERG。靶点模式 Active Inactive Model 1 active Model 1 active（hERG-inactive only） Model 2 active ADRB2 激动剂 4.32 ± 0.54 4.14 ± 1.00 4.17 ± 0.35 4.12 ± 0.31 3.61 ± 1.99 ADRB2 拮抗剂 4.63 ± 0.63 4.07 ± 1.00 4.73 ± 0.80 4.16 ± 0.42 4.75 ± 0.88 CHRM1 激动剂 4.24 ± 1.09 4.15 ± 0.96 4.27 ± 0.54 4.00 ± 0.00 4.24 ± 0.51 CHRM1 拮抗剂 4.58 ± 0.82 4.03 ± 0.98 4.79 ± 0.66 4.08 ± 0.27 4.65 ± 0.68 DRD2 激动剂 4.31 ± 0.41 4.15 ± 1.00 4.35 ± 0.40 4.17 ± 0.30 4.33 ± 0.40 DRD2 拮抗剂 4.36 ± 1.37 4.05 ± 0.65 4.93 ± 0.75 4.20 ± 0.41 4.92 ± 0.81 HTR2A 激动剂 4.44 ± 1.05 4.06 ± 0.92 4.39 ± 0.51 4.15 ± 0.29 4.53 ± 0.61 HTR2A 拮抗剂 4.32 ± 0.73 4.16 ± 0.97 4.68 ± 0.89 4.17 ± 0.92 4.20 ± 0.75 这张表支持了文中的一个重要判断：GPCR活性化合物，尤其是拮抗剂，平均来看往往伴随更强的hERG抑制；而在Model 1中先用hERG模型做排除，通常能把预测命中的hERG抑制强度再往下压一截。换句话说，Model 2在若干分类指标上略占优，但Model 1在先识别活性、再剔除hERG风险这条路线下，对降低hERG负担更直接。实验验证结果图3：模型预测的CHRM1激动剂/拮抗剂的实验验证图3A-C：代表性强效CHRM1激动剂的结构和浓度-响应曲线，绿色曲线表示CHRM1活性，红色曲线表示hERG活性图3D-F：代表性CHRM1拮抗剂的结构和浓度-响应曲线，绿色曲线表示CHRM1活性，红色曲线表示hERG活性图3是全文最重要的落地证据。前三个例子显示，模型不仅能找到CHRM1激动剂，而且这些化合物的绿色曲线与红色曲线明显分开，说明CHRM1活性先出现而hERG作用较弱。后三个拮抗剂例子也传达同样的信息，即真正值得继续推进的，不只是有活性，而是活性与hERG风险之间有窗口。 CHRM1激动剂验证指标结果第一轮测试数量 382个预测CHRM1激动剂确认为活性 274个 PPV 阳性预测值0.72 强效激动剂 103个，$\mathrm{EC50} < 10~\mu\mathrm{M}$ 代表化合物1 NCGC00642171-01，$\mathrm{EC50} = 1.06 \pm 0.10~\mu\mathrm{M}$ 代表化合物2 NCGC00525960-01，$\mathrm{EC50} = 1.68 \pm 0.50~\mu\mathrm{M}$ 代表化合物3 NCGC00657555-01，$\mathrm{EC50} = 4.21 \pm 1.23~\mu\mathrm{M}$ 这部分结果说明，模型在激动剂方向上的主要价值是把极低的原始命中率显著拉高，并且挑出了一批后续值得进入确认实验的候选。 CHRM1拮抗剂验证指标结果第一轮测试数量 1037个预测CHRM1拮抗剂确认为活性 945个 PPV 阳性预测值0.91 确认后仍活跃且无显著hERG抑制 66个强效抑制 34个化合物，$\mathrm{IC50} < 5~\mu\mathrm{M}$ 更强一档 10个，$\mathrm{IC50} < 1~\mu\mathrm{M}$ 已知CHRM1拮抗剂 6个 hERG例外 riboflavin tetrabutyrate 与 NCGC00449480 拮抗剂结果比激动剂更亮眼，尤其体现在PPV上。这也和前面的数据分布一致，即CHRM1拮抗剂数据集本身更大、更容易学到稳定的结构信号。 hERG选择性预测性能使用阴性预测值（NPV）评估时，TN指在hERG实验中未显示抑制，或hERG抑制效力至少比CHRM1活性低3倍的化合物；FN指以与CHRM1活性相似或更高效力抑制hERG的化合物。总体而言，模型预测化合物在hERG抑制实验中的命中率为命中率18.4%，对应hERG模型的NPV为阴性预测值81.6%。这个结果不能理解成“几乎没有hERG风险”，但足以说明它能把原始化合物库中大量潜在hERG抑制剂预先筛掉。关键结论与批判性总结主要贡献本研究把qHTS数据、QSAR建模、外部验证和后续实验确认串成了一条完整流程。通过比较Model 1与Model 2，作者表明活性预测和hERG风险控制可以被同时纳入同一个筛选框架。对约36万个化合物的虚拟筛选及CHRM1实验证明，这套流程确实能提高命中率，并在一定程度上降低hERG相关风险。实验验证结果显示，ML模型可用于识别具有最小hERG抑制的潜在GPCR药物，模型在识别具有最小hERG抑制的新GPCR靶向化合物方面表现良好。这些模型预测的GPCR靶向化合物为实验测试和进一步开发为药物先导化合物提供了优先级排序的候选列表，为开发更安全的GPCR靶向疗法提供了框架，强调了平衡疗效和心脏安全性的策略需求。方法学优势双模型策略：Model 1提供了GPCR与hERG的独立预测，Model 2则把去除hERG抑制剂这一步提前到了建模阶段，两者侧重点不同。根据模型去除hERG抑制剂能力的评估，分别为GPCR靶点和hERG构建的独立模型在去除hERG抑制剂方面比从训练数据中预先排除hERG抑制剂的模型更有效共识模型：四种ML算法联合决策，减少了单一模型偶然命中的影响。与CardioGenAI和CToxPred2等先进hERG责任框架相比，本研究的分类模型（特别是XGB和SVM）表现出更高的特异性（特异性范围0.98-0.99）和更强的平衡准确率（XGB=平衡准确率0.77，SVM=平衡准确率0.75）实验闭环：不是停留在交叉验证或外部验证，而是进一步做了CHRM1与hERG实验确认，发现了多个具有微摩尔级活性的新型CHRM1激动剂和拮抗剂，且大多数CHRM1激动剂和拮抗剂对hERG抑制的影响较小（hERG实验中IC50>IC50阈值6.2μM）可解释比较：不仅比较分类指标，还用表2直接比较了命中化合物的hERG抑制强度，为模型选择提供了定量依据局限性仅验证CHRM1：由于资源限制，研究仅对CHRM1预测化合物进行实验验证，其他GPCR模型（ADRB2、DRD2和HTR2A）的实验验证性能可能不同，且一些预测为非活性的化合物可能实际上是活性的（即假阴性）体外实验依赖性：研究仅应用了一种体外实验方法来生成GPCR靶点和hERG的数据以训练和测试模型，这些实验本身存在假阳性和假阴性率，模型质量因此依赖于实验的技术和生物学可靠性。例如，CHRM1激动剂模式实验的确认率相对较低单一心脏毒性终点：研究仅考虑了hERG依赖性心脏毒性，未考虑来自其他潜在途径的心脏毒性效应骨架泛化能力：骨架拆分验证表明模型在预测新型化学类型时性能下降，在某些GPCR靶点（如CHRM1激动剂和HTR2A拮抗剂）观察到最大下降，可能是由于这些靶点的活性化合物结构多样性有限未来方向扩展验证范围：对其他GPCR靶点（ADRB2、DRD2、HTR2A）的预测化合物进行实验验证，评估模型在不同靶点上的泛化能力多目标优化：探索同时考虑GPCR活性、hERG抑制与其他ADMET性质的多目标筛选策略，优化hERG排除阈值以适应不同GPCR靶点和项目阶段的风险容忍度数据来源多样化：尝试更丰富的分子表示方法和更广的训练数据来源，提升模型对新骨架的外推能力多心脏毒性终点整合：除了hERG依赖性心脏毒性外，还应考虑来自其他潜在途径的心脏毒性效应，构建更全面的心脏安全性预测框架

Machine Learning & AI · 2026-03-22

零代码玩转化学信息学CADS平台整合：DOPtools实现从分子结构到性质预测的全流程自动化

零代码玩转化学信息学CADS平台整合：DOPtools实现从分子结构到性质预测的全流程自动化本文信息标题: 整合DOPtools与CADS的网页用户界面，用于结构描述符计算、模型优化与预测作者: Philippe Gantzer, Micke Kuwahara, Keisuke Takahashi, Pavel Sidorov 发表时间: March 19, 2026 单位: 日本北海道大学化学反应设计与发现研究所（ICReDD）、北海道大学化学系引用格式: Gantzer, P., Kuwahara, M., Takahashi, K., & Sidorov, P. (2025). Integration of DOPtools and CADS in a Web-Based User Interface for Structural Descriptor Calculation, Model Optimization, and Prediction. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.5c03055 代码与平台: CADS平台在线访问：https://cads.eng.hokudai.ac.jp CADS源代码：https://github.com/Material-MADS/mads-app （revision 84f74c3及以上） DOPtools库：https://github.com/POSidorov/DOPtools 摘要定量构效关系（QSPR）建模通常需要在不同工具间切换来完成描述符计算和模型构建，这对缺乏编程经验的实验科学家构成了障碍。本研究将DOPtools——一个专门用于分子描述符计算和模型构建的Python库——无缝整合到CADS（基于数据科学的催化剂获取）平台中。这一整合使得用户无需编写代码，即可通过网页界面完成从分子结构（SMILES编码）到描述符计算、再到模型超参数优化和性质预测的全流程。新增功能包括：支持分子结构的2D可视化、自动化超参数优化（基于Optuna）、批量预测能力，以及通过ColorAtom模块实现的模型可解释性可视化（展示每个原子对预测结果的贡献）。该平台支持私有数据部署，为化学、材料和药物研发领域提供了开放、可定制且用户友好的QSPR建模解决方案。核心结论无缝整合：将DOPtools的11种描述符计算能力和机器学习模型优化功能嵌入CADS的网页界面，用户无需编程即可完成复杂建模任务。自动化建模流程：支持从SMILES字符串自动计算分子描述符、进行超参数优化（支持SVM和随机森林），并自动选择最优模型。模型可解释性：集成ColorAtom功能，可在预测结果上叠加原子级别的贡献热图（绿色表示增加性质值，紫色表示降低），帮助用户理解模型决策。私有数据友好：CADS平台开源且支持本地服务器部署，适合处理敏感或专有化学数据。性能稳健：在ddG性质预测任务中，500次优化尝试即可达到R² ≈ 0.85，且预测1000个分子仅需约45秒。背景在药物发现、催化剂设计和材料开发中，从分子结构预测其性质（如溶解度、血脑屏障穿透性、反应选择性等）是核心任务之一。传统的实验筛选方法成本高、周期长，而定量构效关系（QSPR）建模通过建立分子结构与性质之间的数学关系，提供了一种高效的替代方案。然而，QSPR建模的落地面临三重障碍：计算描述符需要编程（如RDKit、Mordred等库需通过Python调用）、模型优化需要机器学习专业知识（超参数调优、交叉验证等）、工具链碎片化（描述符计算、模型训练、预测往往需要多个独立软件）。尽管已有像KNIME、Pipeline Pilot这样的图形化工作流平台，但它们通常需要本地安装，计算能力受限于个人电脑，且难以处理敏感数据。而网页平台如OCHEM虽然免安装，但多为闭源，无法部署在本地网络。正是在这一背景下，CADS平台应运而生。它最初是为催化剂数据科学设计的开源网页平台，支持数据管理、分析和预测。但其早期版本不支持分子描述符的自动计算，也不具备模型超参数优化功能。本研究将DOPtools——一个同样由该团队开发的Python库——整合进CADS，填补了这一空白。 DOPtools技术架构：该库基于成熟的化学信息学工具链构建，包括Chython（1.78版本）用于结构解析、RDKit（2024.9.5版本）用于分子操作、scikit-learn（1.6.1版本）用于机器学习，以及Optuna（4.2.1版本）用于超参数优化。支持的算法包括支持向量机、随机森林和XGBoost（命令行版本），模型可保存为标准的scikit-learn pipeline格式，便于复用和部署。这种整合实现了优势互补：DOPtools作为“引擎”提供强大的计算能力，CADS作为“驾驶舱”提供友好的用户界面，使得用户可以在网页上完成从分子结构输入到模型部署的全流程，无需编写一行Python代码。图1：CADS平台总体架构概览图中将平台分成两个互补部分：服务器端负责计算、存储和任务执行，客户端提供面向用户的图形界面。这张图的意义在于先交代整个平台的分工，再去理解后面新增的“含分子的表格”“描述符”“优化器”和预测模块升级各自落在哪一层。从工作流角度看，DOPtools主要嵌入在服务器端的数据处理与建模链条中，而CADS负责把这些能力组织成可交互、可管理、可部署的网页组件。创新点零代码分子描述符计算：用户只需上传包含SMILES列的CSV文件，即可通过网页表单选择描述符类型（如Morgan指纹、RDKit指纹、Mordred 2D描述符等），后台自动调用DOPtools和RDKit完成计算。一体化模型优化：在同一个网页组件中，用户可完成“描述符计算 → 超参数优化 → 模型保存”的完整流程，无需在多个工具间切换。原子水平模型解释：预测页面集成ColorAtom，以2D分子图形式展示每个原子对预测值的贡献（绿色为正贡献，紫色为负贡献），使黑箱模型透明化。灵活的数据输入：不仅支持分子结构，还支持溶剂名称（自动匹配物化性质）和用户自定义数值特征，适配多种建模场景。性能基准公开：论文提供了详细的性能测试数据（不同尝试次数、交叉验证折数下的时间与R²），为用户评估计算资源需求提供参考。研究内容核心方法：平台架构与工作流 CADS平台采用客户端-服务器架构，前端基于React提供交互界面，后端使用Django框架和Python脚本执行计算任务。本次整合主要新增了三个核心组件和一个预测模块的升级。图2：含分子的表格组件和描述符组件的数据处理展示左侧“含分子的表格”组件将SMILES文本编码的结构转换为2D分子图，便于用户直接检查分子或反应条目是否被正确解析。右侧“描述符”组件从SMILES编码的结构（包括R基团和反应）以及溶剂名称自动计算描述符值，并以表格形式展示结果。初始数据来自Tsuji等人的数据集，包含分子、溶剂和相关性质，仅用于演示目的。 1. 含分子的表格组件核心功能：将数据表中SMILES编码的分子或反应式转换为2D结构图（SVG格式）实现方式：利用Chython库解析SMILES并生成矢量图，支持任意缩放而不失真应用场景：在建模前快速检查数据质量，或建模后查看预测效果较好的分子结构数据管理：支持三级访问权限控制权限级别访问范围适用场景私有仅上传者和指定用户可访问企业专有数据、未公开研究结果内部平台所有注册用户可访问实验室内部共享数据公开所有人可访问公开数据集、已发表研究数据这种灵活的权限管理使得平台既能处理公开数据集，也能安全地管理企业或实验室的专有数据。 2. 描述符组件核心功能：从SMILES自动计算分子描述符，生成特征表。支持的11种描述符类型：类别描述符名称可调参数指纹类 Morgan指纹位数指纹类 Morgan特征指纹最大半径指纹类 RDKit指纹位数指纹类 RDKit线性指纹最大长度指纹类 RDKit分层指纹无指纹类 Avalon指纹位数指纹类 Atom Pair指纹无指纹类 Torsion指纹无碎片类 ChyLine碎片最小/最大长度碎片类 Circus碎片最小/最大半径全描述符 Mordred 2D描述符计算超过1800种2D分子描述符输入灵活性支持SMILES字符串作为输入格式，这是化学信息学最通用的文本表示方式对于反应体系，支持SMILES CGR（缩合图表示）格式可同时输入溶剂名称，自动匹配152种溶剂的Catalán物化性质描述符支持用户自定义外部数值特征，扩展性极强这里的“溶剂”并不是所有任务都必须提供的输入列，而是一个可选的上下文特征。当目标性质本身会随着实验介质变化时，平台可以把溶剂名称映射为Catalán参数，让模型同时学习分子结构与反应/测量环境对结果的共同影响；在ddG这类反应选择性任务中，这一点尤其重要。在特征计算阶段，DOPtools会自动跳过无法计算的分子（如包含非标准元素的SMILES），并在日志中记录错误。平台会自动移除方差为零的特征（即所有分子在该特征上的值相同），因为这些特征对模型没有区分能力。用户也可以在建模前通过“描述符”组件预览特征表，手动检查是否存在异常条目或不合理特征。输出为一张包含所有特征和性质列的表格，用户可下载为CSV用于其他分析。 3. 优化器组件（分回归和分类两个版本）这是本次整合的核心，将DOPtools的模型优化能力以表单形式呈现给用户。配置流程（以回归任务为例）描述符设置：与“描述符”组件相同，选择要计算的特征类型建模设置：选择目标列（要预测的性质）选择算法：支持支持向量回归（SVR）和随机森林回归（Random Forest）设置交叉验证折数（如3、5、10折）和重复次数（如3、5、10次）可选留出一部分数据作为外部测试集，用于独立评估；不过论文正文只说明了平台支持这一功能，并未展开具体的切分方式或默认设置保存模型：优化完成后，可将最佳模型（按交叉验证平均R²最高选择）保存到服务器，供后续预测使用优化算法详解 DOPtools底层使用Optuna框架进行超参数搜索，采用k-fold交叉验证策略来评估每组参数的性能交叉验证支持多次重复，以减少数据划分随机性带来的偏差，确保评估结果稳健对于SVR，搜索空间包括C值（1e-9到1e9）、核函数（线性、RBF、多项式、sigmoid）等对于随机森林，搜索空间包括最大深度（3–10）、树的数量（20–200）、最大特征选择方式等模型选择标准：回归任务选择交叉验证平均R²最高的模型，分类任务选择平衡准确率最高的模型关于XGBoost：论文明确给出两层限制。第一，DOPtools 1.2的方法表中注明，由于实现层面的技术困难，XGBoost当前在网页GUI中被禁用；第二，正文又补充说，在当前CADS版本里，XGBoost仍可通过DOPtools命令行版本使用，但不在网页优化器中开放，因为其优化和训练耗时更长。作者同时指出，未来版本有望重新接入这一算法。 4. 升级的预测模块本次更新不仅增强了预测功能，还引入了智能输入验证机制，确保预测过程的鲁棒性。特性说明输入方式用户可一次性提交多个分子（每行一个），格式与训练时特征顺序一致（如“SMILES 溶剂名数值特征”）智能验证服务器端Python脚本会自动检查每行输入：验证字段数量、确认SMILES有效性和溶剂名称存在性、自动跳过无效行输出内容预测值列表，可选“预测并着色”功能生成ColorAtom热图直观显示原子贡献批量性能预测1000个分子约需45秒（在16核服务器上）数据安全模型保存时引入了input_type元数据字段，自动识别所需的输入类型，防止用户误用模型 ColorAtom的作用 ColorAtom会把模型预测结果映射回2D分子结构，用原子级着色来展示不同原子对预测值的相对贡献，从而提供一种更直观的模型逻辑可视化。在平台层面，它的价值在于把原本难以阅读的数值预测转成化学家更容易理解的结构图，帮助用户快速判断哪些局部结构更可能推动性质升高或降低。至于ColorAtom更底层的理论与实现，论文主要通过引用Marcou等人的原始工作加以说明，而没有在本文中展开算法推导。图4：使用Huuskonen等人溶解度数据集构建的模型进行预测 SMILES列和Real列显示用户提供的输入信息及可选的真实值。 Predicted列给出模型预测值。 ColorAtom列展示对应SMILES的2D分子图，其中绿色原子表示对预测性质有增加作用，紫色原子表示对预测性质有降低作用，颜色深浅反映相对贡献大小。数据仅用于演示目的。案例演示与结果分析论文用三个数据集展示了平台的核心功能，我们逐一解读。案例一：ddG性质预测（回归任务） Tsuji等人2023年发表的手性催化剂数据集包含反应条件、溶剂和产物对映选择性。这里的 ddG 指的是与对映选择性相关的自由能差，文中具体建模的目标列名为 ddG calib (C=0.05)，单位为 kcal/mol。描述符选择理由：CircuS碎片（大小0到3）能够同时捕捉局部与全局结构特征，特别适合手性催化剂这类骨架较复杂的体系；溶剂描述符则量化了介质的极性、酸碱性等物化性质，对反应选择性有重要影响。算法选择理由：支持向量回归（SVR）在中小样本量下表现稳健，且对高维特征空间不敏感。交叉验证策略：采用3次重复、每次10折，目的是降低随机划分带来的偶然性，提高模型评估的可靠性。优化尝试次数：设置为500次，在精度与计算时间之间取得平衡。图3a展示了优化后的模型在交叉验证训练集上的预测值与真实值散点图。点越靠近对角线，模型越准确。从图中可见，大部分点落在对角线附近，说明模型具有较好的拟合与泛化表现。经过500次优化尝试后，$R^2$ 约为0.86，而RMSE和MAE也保持在较低水平，说明平台已经能够在网页端稳定完成一轮像样的回归建模。用户还可以通过鼠标悬停查看每个点的详细信息，点击后在其他组件中联动高亮对应结构，这使得异常点分析不再需要来回切换工具。图3：优化器组件运行后的界面展示（a）回归优化器组件展示使用Tsuji等人数据预测ddG性质的最佳模型性能。散点图显示交叉验证中预测值与真实值的对应关系，右侧列出模型详细信息和验证指标。（b）分类优化器组件展示使用Roy等人数据集预测血脑屏障穿透性的最佳模型。左侧为ROC曲线，其中深蓝色表示平均曲线，浅蓝色表示各次重复曲线；右侧显示模型参数和验证指标（如平衡准确率、AUC），类别1被视为正类。案例二：血脑屏障穿透性预测（分类任务） Roy等人2019年发布的数据集，分子被标记为“可穿透”或“不可穿透”。算法选择理由：随机森林分类器（RFC）天然适合处理分类任务，且对特征缩放不敏感，能自动处理特征之间的交互作用。评估指标选择理由：平衡准确率（Balanced Accuracy，即两类召回率的平均值）能更好地处理类别不平衡问题，避免模型偏向多数类。可视化工具：ROC曲线和AUC提供了模型在不同阈值下的综合性能概览。图3b展示了ROC曲线。曲线越靠近左上角，模型区分正负类的能力越强。图中同时显示了每次交叉验证重复的ROC曲线（浅蓝色）和平均曲线（深蓝色），因此读者不仅能看到平均表现，还能直观看到重复之间的波动范围。相比普通准确率，平衡准确率更适合这类潜在类别不平衡任务；论文也正是用它作为交叉验证重复平均后的模型选择标准。AUC则提供了另一个角度的佐证：从平均ROC曲线位置看，模型具备较好的类别区分能力。案例三：溶解度预测与原子贡献可视化 Huuskonen等人2000年发表的溶解度数据集，包含多种有机化合物。描述符选择理由：Mordred 2D描述符覆盖了超过1800种分子特征，包含拓扑、电子和理化性质等多个维度，适合用来做这类通用小分子性质建模。算法选择理由：随机森林回归对高维特征空间具有较好的适应性，同时也便于后续解释。 ColorAtom价值：对于溶解度这类常常受局部官能团影响的性质，原子贡献可视化尤其直观。用户在预测页面输入SMILES后，选择“Predict and color”，即可得到预测值和一个带颜色的分子结构图（图4）。其中，绿色原子表示对预测溶解度有正向贡献，紫色原子表示有负向贡献，颜色深浅反映相对贡献大小。这里最重要的 punchline 是平台把预测值和结构解释放到了同一个界面里：用户不只知道模型给了什么答案，还能快速看到答案主要来自分子的哪些局部结构。不过这种解释仍然更适合作为启发式线索，而不是直接替代化学机理判断。下图展示了从数据上传到模型预测的完整工作流： graph TB subgraph S1["1.数据准备"] direction TB A1["上传CSV文件 （含SMILES列、性质列）"] A2["数据管理模块 （私有/内部/公开）"] end subgraph S2["2.特征计算与可视化"] direction TB B1["含分子的表格组件 SMILES转2D结构图"] B2["描述符组件 选择11种描述符类型 自动计算特征"] end subgraph S3["3.模型优化"] direction LR C1["优化器组件 选择算法"] --> C2["设置交叉验证"] --> C3["Optuna超参数优化"] --> C4["保存最佳模型"] end subgraph S4["4.模型预测与解释"] direction LR D1["预测模块 批量输入分子"] --> D2["ColorAtom原子贡献热图 绿色↑ 紫色↓"] --> D3["导出预测结果CSV"] end S1 --> S2 --> S3 --> S4 style A1 fill:#e1f5ff style A2 fill:#e1f5ff style B1 fill:#fff9c4 style B2 fill:#fff9c4 style C1 fill:#ffe0b2 style C2 fill:#ffe0b2 style C3 fill:#ffe0b2 style C4 fill:#ffe0b2 style D1 fill:#c8e6c9 style D2 fill:#c8e6c9 style D3 fill:#c8e6c9 性能基准测试论文附录提供了详细的性能测试数据（基于16核Intel Xeon Silver 4314服务器），帮助用户预估计算资源需求：表ST1：不同 Optuna 超参数尝试次数下的回归模型性能（Tsuji 数据集中的 ddG calib (C=0.05) 性质）尝试次数平均 R² 平均时间（秒）时间范围（秒） 50 0.835±0.012 68±5 63–72 100 0.840±0.012 93±21 66–133 250 0.854±0.003 170±14 158–197 500 0.862±0.004 324±16 308–351 1000 0.861±0.003 623±17 604–653 解读：这里的“尝试次数”指的是 Optuna 在超参数优化过程中评估了多少组参数。当尝试次数从50增加到500时，$R^2$ 从0.835提升到0.862，但计算时间也从68秒增加到324秒。继续增加到1000次后，性能几乎不再提升，说明大约500次尝试已经接近收益平台期。这组结果给出的核心信息不是“越多越好”，而是网页端建模同样需要考虑精度与时间的平衡。表ST5：不同测试集规模下的批量预测耗时（使用保存的模型）测试集大小 10 100 1000 3000 平均时间（秒） 0.46±0.009 5.22±0.06 44.9±0.1 133.6±0.1 解读：这里的“10、100、1000、3000”指的是待预测条目数，也就是通过重复Tsuji数据集的外部测试集得到的 TEST SIZE，并不是优化尝试次数。按这一设置，1000条输入约需45秒，3000条约需133秒，整体呈近似线性增长。这说明平台已经能支撑中等规模的批量预测，至少不会卡在“一次只能点一个分子”的演示级阶段。关键结论与批判性总结平台价值 CADS与DOPtools的整合显著降低了QSPR建模的技术门槛，使实验科学家能够更专注于化学问题，而不是被脚本、依赖和模型封装细节绊住。私有部署这一点很关键，它让平台既保留了网页工具的便利性，又能适配敏感或专有数据场景，补上了很多公共在线平台做不到的一环。 ColorAtom可视化的价值不只是“好解释”，而是把预测结果直接投回结构层面，让模型输出更接近化学家真正会使用的工作语言。局限性网页端算法支持仍有限：虽然DOPtools本身支持SVM、随机森林和XGBoost，但当前网页GUI中XGBoost仍被禁用，这会限制部分任务的性能上限。平台论文更偏功能展示而非系统 benchmark：文中通过三个案例说明组件可用，但并没有在多数据集上系统比较不同描述符或算法组合的优劣，因此它更像“可用性证明”，而不是通用性能排名。适用域仍待补齐：作者在结尾明确提到未来希望引入Applicability Domain功能；这说明平台虽然已经能做预测和可解释性展示，但对“哪些预测值得信任”的提示仍不充分。未来方向引入Applicability Domain：作者明确点名了Fragment Control、Bounding Box以及基于距离的方法（如leverage）作为未来可接入CADS的平台能力。增加新描述符与新算法：论文在结尾明确提到，未来DOPtools若加入新的描述符和机器学习算法，这些能力也可以继续整合进CADS。扩展平台的高级建模能力：随着DOPtools后续演进，CADS有望持续扩展其面向化学信息学工作流与模型构建的功能边界。小编锐评：看来主要还是好在训练过程有界面，没有真去弄性能，那跟我还是有差距。前面处理之类的技术细节还是可以借鉴下人家的，比如：方便地对新分子进行预测、设置交叉验证折数和重复次数等

Machine Learning & AI · 2026-03-21

生成式主动学习+物理模拟：AI与精准计算协力加速新药设计

生成式主动学习+物理模拟：AI与精准计算协力加速新药设计本文信息标题: Optimal Molecular Design: Generative Active Learning Combining REINVENT with Precise Binding Free Energy Ranking Simulations 作者: Hannes H. Loeffler, Shunzhou Wan, Marco Klähn, Agastya P. Bhati, Peter V. Coveney 发表时间: 2024年9月单位: AstraZeneca分子AI部门（瑞典）、伦敦大学学院计算科学中心（英国）引用格式: Loeffler, H. H., Wan, S., Klähn, M., Bhati, A. P., & Coveney, P. V. (2024). Optimal Molecular Design: Generative Active Learning Combining REINVENT with Precise Binding Free Energy Ranking Simulations. Journal of Chemical Theory and Computation, 20(19), 8308–8328. https://doi.org/10.1021/acs.jctc.4c00576 摘要主动学习（AL）是一种序列实验设计策略，利用机器学习智能地选择需要评估的下一批分子结构，有效模拟实验室中的设计-制造-测试-分析循环（DMTA）。本研究描述了一个将生成式分子AI与物理精算绝对结合自由能计算（REINVENT与ESMACS）相结合的主动学习框架，称为生成式主动学习（GAL）。在全球首台超算Frontier上，该协议成功发现了两个靶点（3CLpro和TNKS2）的新型高效配体，这些分子不仅结合亲和力超越初始模型，而且化学空间分布完全不同，显示了物理约束与AI生成的协同优势。通过系统改变批大小参数，研究提供了不同应用场景下的最优效率建议。核心结论 GAL框架的有效性：在两个差异化靶点上，生成式主动学习都能成功发现结合亲和力更优的新分子，且化学结构多样性高批大小的关键影响：对于开放型结合口袋（3CLpro），小批大小（n=250）效率更高；对于封闭型口袋（TNKS2），较大批大小能提升精度但增加计算成本快速收敛特性：TNKS2仅需3-4次迭代即可收敛，3CLpro需5-7次，远低于传统虚拟筛选物理精算的必要性：Docking评分与ESMACS相关性极弱，表明物理计算对驱动高质量分子生成至关重要代理模型质量与靶点结构的耦合：靶点口袋的约束性越强，代理模型预测精度越高，GAL整体效率越优背景药物发现中的计算加速困境传统的药物发现遵循设计-制造-测试-分析循环（DMTA），这是一个迭代、缓慢、昂贵的过程。每次设计新化合物都需要实验评估，周期长达数月，投入巨大。计算机辅助药物设计（CADD）应运而生，但面临核心难题：虚拟库规模爆炸：商业库动辄数百万甚至数十亿化合物，传统虚拟筛选无法遍历评估函数精度不足：Docking等快速评分方法与实验关联性差（本研究中Spearman相关系数仅0.08）化学空间探索有限：固定库只能覆盖已合成分子，无法发现新颖性强的化合物采样-精度的平衡：高精度方法（如MM-PBSA）计算昂贵，难以大规模应用主动学习的理论基础主动学习（AL）打破了被动数据标注的枷锁。其核心思想是：不盲目标注海量数据，而是智能地选择最具信息价值的样本进行昂贵计算，逐步优化代理模型。在药物发现中，AL的逻辑链条是： Oracle（预言者）：精准但昂贵的计算方法（如分子动力学结合自由能计算）代理模型：快速但精度有限的机器学习模型（如神经网络QSAR）获取函数：智能选择下一批候选化合物的策略迭代优化：循环运行，逐步收敛到高质量分子生成式AI与强化学习的融合传统AL依赖固定库池，而REINVENT引入了生成式前沿：通过强化学习（RL），该模型能够即时生成满足目标属性的新型化合物，不受合成库限制。这意味着：化学空间无限：从分子图表示（SMILES）生成，理论上可探索所有可合成分子先验知识驱动：预训练的“先验”模型被RL逐步微调向目标方向评分函数驱动：多个评分项（结合亲和力、药物性、合理性）加权聚合关键科学问题本研究旨在回答药物发现实践中的根本问题：能否在主动学习框架中有效整合生成式AI和物理模拟？两种范式（快速生成 vs. 精准评估）的协同效果如何量化？批大小如何影响效率（每轮提交多少化合物给Oracle）？小批高迭代 vs. 大批低迭代，孰优孰劣？靶点结构特征对GAL性能的影响程度有多大？开放vs.封闭的结合口袋是否导致截然不同的行为？在超算上实现的GAL是否具有实际药物发现价值？生成的分子是否真正新颖且可合成？创新点首个完整的GAL范式展示：在药物发现领域系统展示生成式AI（REINVENT）与物理精算（ESMACS）的端到端整合，非概念验证而是实战应用超算尺度的实现：在Frontier（全球首台艾字节级超算）上部署，单次迭代仅需50分钟墙钟时间评估数百化合物，计算量~2毫秒系统的批大小分析：首次在两个代表性靶点上对比5种不同批大小（100-1000），给出精度-效率权衡的定量建议靶点结构的影响揭示：通过对比开放型（3CLpro）和封闭型（TNKS2）结合口袋，深入讨论了蛋白质约束性对代理模型质量和GAL收敛的直接影响真实新颖性验证：生成分子与原始库的Tanimoto相似度<0.13，证明了真正的结构创新而非模式复制研究内容方法论框架：GAL工作流该研究建立的GAL循环由四个关键组件组成： graph TB subgraph Oracle["Oracle（预言者）"] direction LR ESMACS["ESMACS 10副本MD模拟 4 ns/副本 ~5分钟/化合物 精准结合自由能"] end subgraph Surrogate["代理模型"] direction LR ChemProp["ChemProp神经网络 5折交叉验证 5个集成模型 快速亲和力预测"] end subgraph Generator["分子生成器"] direction LR REINVENT["REINVENT强化学习 古典先验模型 300-500次迭代 每轮生成100-1000分子"] end subgraph Acquisition["获取策略"] direction LR Clustering["聚类-贪心策略 Butina算法 Tanimoto相似度>0.5 每簇选最优分子"] end Oracle -->|ΔG结果| Surrogate Surrogate -->|更新模型| REINVENT REINVENT -->|生成新化合物| Acquisition Acquisition -->|筛选批次| Oracle style ESMACS fill:#e3f2fd style ChemProp fill:#f3e5f5 style REINVENT fill:#e8f5e9 style Clustering fill:#fff3e0 工作逻辑：每一轮GAL包括 (1) 评估当前批次的化合物结合亲和力→ (2) 用真实数据更新代理模型→ (3) 用强化学习生成新批次→ (4) 通过聚类和贪心策略选择最有潜力的子集→ (5) 循环回到第1步。图1：生成式主动学习的整体工作流 GAL框架从右上方开始：ESMACS评估一组化合物的结合亲和力，将结果与其ΔG值用于更新ChemProp代理模型（右下）。REINVENT利用古典强化学习先验和经过更新的ChemProp评分函数，通过内层强化学习优化循环在左边生成新分子，外层是主动学习算法本身。新生成的候选物通过Butina聚类和贪心选择策略筛选，再回到评估步骤。两个代表性靶点的对比 3CLpro（SARS-CoV-2主蛋白酶）靶点特征：大型开放结合口袋，允许多种配体结合模式初始模型：基于~10,000个Docking评分最优的化合物测试批大小：250和500分子/轮迭代轮数：7轮总Oracle调用：3,500和1,750次关键结果：代理模型初期精度低（Spearman ρ~0.1），后期恢复到0.62（n=250）和0.39（n=500）生成分子结合自由能从初始约-30 kcal/mol逐步改善至-56 kcal/mol（相对于最优种子库提升>5 kcal/mol）化学多样性保持高水平（平均Tanimoto相似度<0.35），与种子库差异度极大（<0.13）小批大小（n=250）表现出更高的计算效率（每次Oracle调用发现的结构簇数更多）图8：3CLpro的GAL效率分析效率指标定义为每次Oracle调用发现的结构簇数，展示了n=250（绿色）和n=500（蓝色）两种批大小在每轮迭代后的累积效率。小批大小在结构发现效率上明显优于大批大小，特别是在早期迭代阶段。图2：代理模型精度逐轮改进对比n=250（绿色）和n=500（蓝色）两种批大小，ChemProp代理模型对ΔG的预测精度逐轮提升。Spearman相关系数从初期0.1恢复到0.62（n=250）或0.39（n=500）。这是3CLpro最关键的指标，反映了数据驱动模型如何逐步学习配体-蛋白复杂关系。图4：结构多样性与聚类分析四个子图展示3CLpro的核心演变轨迹： (a) ΔG分布的逐轮改善（绿=n=250，蓝=n=500） (b) Tanimoto相似度分布：内部相似度<0.35，保持高多样性 (c) 结构簇数随迭代递减，表明收敛到少数高质量簇 (d) 生成分子与初始库的相似度<0.13，证明真正的新颖性而非模式复制图6：化学空间演变（t-SNE可视化）使用Morgan指纹的t-SNE投影清晰展示：蓝色：初始种子化合物聚集在紧凑区域红/橙/黄：生成分子大幅扩展到外围，形成多个分离簇充分证明了GAL能突破已知化学空间的边界图5：3CLpro的代表性化学结构展示从不同结构簇中选择的ΔG最优结合分子。包含8个最丰富的簇以及4个ΔG最低的簇，从ΔG最低的100个化合物中进行聚类分析。这些分子结构展示了GAL发现的化学多样性和新颖性。这些图表共同展示了3CLpro从困难收敛到逐步优化的全过程。 TNKS2（Tankyrase-2，PARP家族蛋白）靶点特征：狭窄封闭结合口袋，限制了配体的结合模式多样性初始模型：基于27个实验验证的同系物（使用QSARtuna随机森林）测试批大小：100、300、500、700、1,000分子/轮迭代轮数：4-5轮（快速收敛）总Oracle调用：较少但更精确关键结果：代理模型质量显著优于3CLpro（Spearman ρ > 0.7，R² > 0.6在第1轮后）仅需单次迭代就实现显著改善（对比3CLpro需多轮）生成分子结合自由能达-47 kcal/mol（超过所有27个实验验证的种子）大批大小导致更深的化学空间收敛：n≥500的多轮试验收敛到相同区域，n=700则稍偏移生成分子中腈基和桥环等特殊取代基被反复发现，表明它们是该口袋的关键优化群体图10：TNKS2的结合自由能分布展示不同批大小（100、300、500、700、1000）在选定迭代轮次后的ΔG分布。绿色（batch 0）是初始10,000个种子化合物的分布，可以清楚地看到生成分子（batch 1-5）的分布迅速向低值移动，反映了代理模型的高效性。图12：TNKS2的代表性化学结构展示从不同结构簇中选择的ΔG最优结合分子。包含8个最丰富的簇以及4个ΔG最低的簇。可以观察到腈基（-CN）和桥环结构在多个最优分子中反复出现，验证了这些是该结合口袋的关键优化群体。图9：TNKS2代理模型的快速精准提升对比n=100、500、1000三种批大小，ChemProp在TNKS2上的表现远优于3CLpro。Spearman相关系数>0.7（vs 3CLpro的0.62），R²>0.6（vs 3CLpro的更低值）。关键差异在于TNKS2的一致性结合模式使得1D SMILES与3D构象有清晰对应。图11：TNKS2的多维性能分析四个子图汇总TNKS2的关键演变： (a) 结合自由能分布极速移向低值（单次迭代显著改善） (b) Tanimoto相似度分布宽度增加，表示更多样的结构生成 (c) 结构簇数呈现快速收敛模式（vs 3CLpro的缓慢递减） (d) 与初始27个实验同系物的相似度<0.3，多数为全新支架图13：TNKS2的化学空间拓展 t-SNE可视化对比3CLpro的多簇分散，TNKS2展现：黄色：初始10000个种子化合物聚集浅蓝色：27个实验验证配体占据极小区域多彩点：生成分子虽然向外扩展，但范围相对集中（反映封闭口袋的约束性）这揭示了口袋拓扑结构直接决定化学空间探索的广度。靶点对比的深层洞察： 3CLpro：开放口袋→多种结合模式→代理模型难以学习→需更多迭代 TNKS2：封闭口袋→一致结合模式→代理模型快速精准→少轮次收敛批大小的效率权衡研究定义了计算效率指标 $\eta = \frac{N_{CG,\Delta G_{\max}}}{n_{\text{oracle}}}$，其中$N_{CG}$为满足结合亲和力和相似度阈值的结构簇数，$n_{\text{oracle}}$为Oracle调用次数。通过多场景参数扫描（两个ΔG阈值×两种相似度截断），研究系统评估了不同批大小在多样性探索（hit finding）和亲和力优化（lead optimization）两种应用场景下的表现。结论： 3CLpro：小批大小（n=250）在所有情景下效率最高 TNKS2：小批大小（n=100）在多数情景下最优，但在严格亲和力条件下n≥500超越实践建议：当代理模型质量难以预知时，小批大小是更安全的选择（100-250），能在探索和精细化之间取得平衡代理模型质量的关键因素 TNKS2代理模型显著优于3CLpro的根本原因在于靶点蛋白的结构特性（详见附录的深层分析）：封闭口袋建立了SMILES与3D结合姿态的清晰对应，高质量的初始数据来自实验验证，以及明确的优化目标。这与3CLpro的开放结构、Docking初始数据的噪声、以及多模式竞争形成鲜明对比。关键发现的反思物理精算的核心价值本研究的一个重大发现是Docking与ESMACS的巨大差异： Docking评分：Spearman ρ = 0.08（几乎无相关性） ESMACS评分：Spearman ρ = 0.33（中等相关）为什么这很重要？虽然ESMACS的绝对精度仍有限，但相对排序能力足以驱动强化学习找到更好的分子。物理计算提供的是：结构-能量关联的物理基础（而非Docking的黑盒碰撞几何）代理模型的高质量训练信号（相比低质量Docking标注）规避虚假优化（RL不会因为Docking的任意性而陷入孤立死胡同）生成式AI的局限性 REINVENT生成分子时知识有限：不支持立体化学（所有生成分子均无手性中心）不包含蛋白质结构信息（仅基于配体结构与亲和力）缺少合成性评估（本研究中某些分子可能难以合成）这反过来解释了为何代理模型质量至关重要：强化学习需要良好的评分信号来弥补生成器的信息缺陷。化学空间探索的启示 GAL的一个独特优势是可探索前所未有的化学空间，而非被限制在已知分子的相似性范围内。研究中的t-SNE可视化清晰显示：初始库（蓝色）聚集在一个紧凑区域生成分子（红/橙/黄）向外大幅扩展，形成多个分离的簇不同批大小导致的不同收敛点表明：强化学习的随机性保证了多样性这对药物发现的意义是：当热点靶点的已知配体陷入某个局部SAR极值时，GAL能自动跳出，在全新化学空间寻找突破。关键结论与未来方向主要成就范式融合：首次在工业规模上展示了生成式AI + 物理精算 + 主动学习的三位一体，打破了各自为政的局面超算驱动：证明在Frontier级超算上，GAL的墙钟时间与小型实验室规模相当，成本可控靶点适应性：系统揭示了蛋白质结构约束性对AI-物理协作的深刻影响，提供了定性预测能力效率量化：为不同应用场景（hit finding vs. lead optimization）提供了批大小选择的定量证据局限性合成性未评估：生成分子虽然新颖，但未经Retrosynthesis检验（建议集成AiZynthFinder）代理模型静态化：未尝试层冻结或持续学习，每轮从零训练（可优化）超算依赖：50分钟/轮的效率对无超算访问的群体无益（需研发GPU集群优化）药物性约束薄弱：仅用QED+构象过滤，缺少PK/PD/毒性模块（实际应用需补充）

Machine Learning & AI · 2026-03-08

可审计的自动化药物分子优化多智能体平台

Machine Learning & AI · 2026-03-04

QSAR模型的数据集划分陷阱：为何内部测试性能可能骗过你

QSAR模型的数据集划分陷阱：为何内部测试性能可能骗过你本文信息标题：Toward More Trustworthy QSAR: A Systematic Discussion on Data Set Partitioning 作者：Shangyu Li, Peizhe Sun 发表时间：2026年2月2日单位：哈尔滨工业大学（深圳）期刊：Journal of Chemical Information and Modeling 卷期：66卷，2199-2210页引用格式：Li, S.; Sun, P. Toward More Trustworthy QSAR: A Systematic Discussion on Data Set Partitioning. J. Chem. Inf. Model. 2026，66 (3), 2199-2210. https://doi.org/10.1021/acs.jcim.5c02465 摘要随着QSAR模型开发的激增，人们对评估严谨性的担忧日益增加，特别是关于数据集划分的影响。本研究使用5个不同规模的数据集，系统评估了随机划分（RS）、基于相似性的划分（SS）和随机种子变化对模型泛化能力的影响，研究覆盖了两种场景：化学筛选的有限数据场景和标准建模的充足数据场景。研究发现，数据集划分方法的选择和随机种子的选择都会显著影响内部测试性能，而这种性能可能无法可靠反映真实的预测能力。虽然SS在许多情况下可以提高内部测试性能，但这些收益不一定能转化为更强的外部泛化能力。此外，在低采样比例下，SS在内部测试和外部测试上的表现可能都劣于RS。这挑战了为优化内部性能而设计的合理划分能够普遍改善模型性能这一隐含假设。值得注意的是，在最小数据集上，不同随机种子间的内部测试变异性很高（$R^2$：0.453–0.783），而在固定的外部数据集上$R^2$变化较小（0.633–0.672），无论是否进行适用域（AD）过滤都是如此。这削弱了跨研究的可比性，并强调了得出过度乐观结论的风险。本研究的发现强调，测试集的构建必须与真实应用场景相一致。研究者应避免依赖单一或精心挑选的随机种子，或不合适的合理划分方法。应采用透明的、与应用场景一致的划分协议和AD方法，以强调真正的外部泛化能力，而非可能被夸大的内部指标。核心结论内部测试性能不可靠：无论是RS还是SS，内部测试集的性能都可能误导对模型真实预测能力的评估 SS的局限性：相似性划分虽然能提高内部测试性能，但对外部数据集的泛化能力提升有限随机种子的敏感性：不同随机种子会导致模型性能的显著波动，需要多次重复验证外部验证的必要性：只有通过独立外部数据集的验证，才能可靠评估QSAR模型的预测能力背景 QSAR（Quantitative Structure-Activity Relationship，定量构效关系）模型是药物发现和化学信息学中的核心工具，通过建立化学结构与生物活性之间的数学模型，预测分子的性质和活性。随着机器学习技术的发展，QSAR模型的开发呈现爆发式增长，但一个根本性的问题始终困扰着研究者：我们如何知道一个模型真的有用？传统的模型评估方法通常将数据集划分为训练集、验证集和测试集，通过交叉验证获得内部测试性能，然后报告$R^2$、RMSE等指标。然而，这种做法存在一个致命缺陷：内部测试性能可能无法反映模型在真实应用场景中的预测能力。关键科学问题本研究系统地探讨了以下核心问题：数据集划分方法的影响：随机划分（RS）和基于相似性的划分（SS）如何影响模型的性能评估？SS真的比RS更好吗？随机种子敏感性：不同随机种子导致的训练集/测试集划分差异，会对模型性能产生多大的影响？内部测试 vs 外部泛化：模型在内部测试集上的优异性能，是否能够转化为对独立外部数据的准确预测？数据规模的依赖性：在数据稀缺的化学筛选场景和数据充足的标准建模场景中，这些规律是否一致？创新点系统性评估：使用5个不同规模的真实数据集，系统比较RS和SS在不同场景下的表现双重验证框架：同时评估内部测试集性能和独立外部数据集性能，揭示两者的差异随机种子分析：量化随机种子变化对模型性能的影响程度实用性指导：为QSAR模型的实践者提供数据集划分和模型评估的具体建议研究内容数据集与实验设置研究使用了5个不同规模的环境化学数据集：研究使用的数据集数据集样本量预测目标应用场景 $K_{\text{ow}}$（辛醇-水分配系数） 11442 化合物的脂溶性环境行为评估 $S$（水溶性） 6113 化合物在水中的溶解度环境归趋预测 $H$（亨利定律常数） 1940 气液分配平衡挥发性有机物评估 Fish acute toxicity（鱼类急性毒性） 908 半数致死浓度$\text{LC}_{50}$ 水生生物毒性评估 $K_{\text{oc}}$（有机碳分配系数） 964 土壤吸附性污染物迁移预测这些数据集涵盖了从小样本（964个化合物，$K_{\text{oc}}$数据集）到大样本（11442个化合物，$K_{\text{ow}}$数据集）的规模范围，能够系统评估不同数据规模下模型性能的稳定性。划分方法对比研究对比了两种数据集划分策略：随机划分（Random Split, RS）：完全随机地将数据分配到训练集和测试集，不考虑化合物的结构相似性基于相似性的划分（Similarity-based Split, SS）：使用最大最小算法（MaxMin algorithm），根据化合物的分子指纹相似性进行划分，确保训练集和测试集的化合物在化学空间中有良好的分离对于外部验证，研究从每个数据集中保留了独立的测试子集作为外部数据集，不参与任何训练和验证过程。 SS的具体实现 SS方法的核心目标是最大化训练集的结构多样性，具体实现如下：步骤关键操作目的与输出分子指纹表示多数数据集使用半径为2的计数型ECFP4指纹，鱼类急性毒性数据集使用半径为1 统一结构特征表示，便于后续相似性计算相似性矩阵计算计算所有化合物对的Tanimoto相似系数，取值范围为0-1 定量衡量结构相似度，构建全局相似性矩阵 MaxMin选择策略先随机选一个种子分子，再迭代选择与已选分子“最远”的化合物加入训练集覆盖化学空间的最大范围，提升训练集结构多样性这种方法让训练集包含更多样化的化合物结构，提升模型对化学空间的覆盖能力。数据集三分法研究采用了双重划分策略，将数据集分为三部分：第一步划分（80:20）：使用代表性随机划分（RRS）将完整数据集分为建模集（modeling set）占80%和外部测试集（external set）占20%，外部测试集被完全保留不参与任何训练过程第二步划分（50:50）：从建模集中假设只测量了50%的化合物（模拟有限数据场景），这50%用于模型训练，剩余50%作为内部测试集最终比例：训练集40%、内部测试集40%、外部测试集20%，其中外部测试集在整个训练过程中完全固定外部测试集的关键作用外部测试集在训练过程中完全固定，不参与任何训练、验证或超参数优化，它的作用包括：模拟真实应用场景：评估模型在完全未见过的数据上的预测能力，这是判断模型是否真正有用的关键标准提供稳定评估标准：研究表明固定外部测试集上的性能变异远小于内部测试集（$R^2$波动0.633-0.672 vs 0.453-0.783），说明外部测试更加可靠避免过度优化：防止研究者通过调整测试集组成来获得“虚假”的高性能，这在机器学习实践中是一个常见陷阱实验设计的严谨性为确保结果的可靠性，研究采用了严格的重复实验设计来量化随机因素对模型性能的影响：随机种子范围：RS在80:20划分中使用随机种子1–49生成外部集，并据此定义RRS、BRS与WRS；对未明确说明的划分，使用随机种子1–10生成10个独立划分以降低抽样偏差训练-测试配置：RS与SS各基于10个随机种子生成20种训练-测试配置，并使用3折交叉验证训练外部集稳定性评估：从外部集抽样50%生成10个subexternal sets，用于评估外部测试的波动核心发现1：内部测试性能的不可靠性研究首先在鱼类急性毒性数据集（n = 908）上系统评估了RS和SS的表现。结果令人震惊：内部测试性能可能完全误导我们对模型能力的判断。图1：鱼类急性毒性数据集上RS和SS的性能对比。该图展示了在不同训练集比例下，随机划分（RS）和基于相似性的划分（SS）在内部测试集和外部数据集上的性能表现。面板A：在50%测量比例下，SS在内部测试集上显著优于RS，但外部数据集性能差异不大面板B：不同训练集比例下，两种方法在内部测试集上的性能差异，SS始终优于RS 面板C：不同训练集比例下，两种方法在外部数据集上的性能差异，RS在某些情况下甚至优于SS 面板D：不同训练集比例下，RS和SS生成训练集的重叠率，RS的重叠率接近采样比例，而SS的重叠率明显更高关键观察 SS在内部测试集上的“虚假优势”：在50%测量比例下，SS方法在内部测试集上的表现明显优于RS，但在独立外部数据集上两者差异很小，说明内部性能优势并不等同于真实泛化优势。这意味着什么？如果你仅根据内部测试性能选择SS方法，你会认为它构建了一个更好的模型。但实际上，这个“更好”的模型在预测新数据时并不会比RS方法更强。形象比喻：想象你在准备一场考试，SS方法就像是老师提前“透露”了考题范围，你在练习题上表现得很好（内部测试），但真正考试时（外部预测）并没有比随机准备的同学更强。因为练习题和真实考试的能力要求不完全一样。此外，图1D显示RS的训练集重叠率接近采样比例，而SS由于MaxMin选择机制导致训练集高度重叠，这解释了SS内部测试更稳定却外部优势有限的原因。核心发现2：外部子集选择会显著改变评估结论图2：鱼类急性毒性数据集上不同外部子集的性能对比。该图展示了在多个外部子集上评估同一模型时的性能差异：面板A为模型层面的表现，面板B为外部子集层面的波动。关键观察：无论采用RS还是SS，模型在不同外部子集上的表现都会出现明显波动，说明外部集构成本身就是影响结论的重要变量。核心发现3：随机种子与AD设置会放大内部差异研究系统评估了不同随机种子对模型性能的影响，发现这一因素常常被忽视，但实际上影响巨大。图3：BRS/WRS与适用域（AD）分析。图3A比较BRS与WRS在内部测试与外部数据集上的表现，图3B展示不同AD方法与阈值下外部样本数量，图3C-D给出在最大相似度AD阈值0.5下的预测结果。关键观察：BRS在内部测试上显著优于WRS，但在外部数据集上的差异明显缩小，且AD筛选后外部样本数量差异不大。摘要进一步指出，在最小数据集上内部测试$R^2$波动可达0.453–0.783，而固定外部数据集$R^2$仅为0.633–0.672，且这一稳定性不受AD过滤影响。实践建议：在报告QSAR模型性能时，必须使用多个随机种子进行重复实验，报告均值和标准差，而不是单一随机种子的结果。核心发现4：SS不一定带来外部优势研究在所有5个数据集上系统比较了RS和SS的外部泛化能力，结果挑战了“SS总是更好”的普遍认知。图4：模型残差分析与特征重要性。该图展示了BRS（最佳随机种子）和WRS（最差随机种子）模型在外部数据集上的残差对比，以及SHAP特征重要性分析。这与普遍认知形成鲜明对比——许多研究者认为SS能够提高模型的“真实性”和“可靠性”，因此应该优先使用。但本研究表明，这种优势在独立外部验证时往往消失。批判性思考：SS的核心假设是“测试集应该与训练集在化学空间中分离”，以模拟真实预测场景。然而，这种假设可能忽略了两个关键因素：化学空间的连续性：即使测试集化合物与训练集“不相似”，它们仍然可能共享相同的药效团或作用机制过拟合风险：SS倾向于选择“边界”化合物进入测试集，这些化合物可能更具“挑战性”，导致模型在内部测试时表现“较差”，但并不代表外部预测能力更强核心发现5：建模工作流建议研究基于发现，提出了在不同计算资源条件下的建模工作流建议。图5：建模工作流建议。面板A的关键发现包括：所有使用HPO的策略都优于Baseline：超参数优化对提升模型性能至关重要使用完整训练数据集重新拟合的策略表现更好：在HPO后用全部训练数据重新训练模型，比只用预训练数据效果更好 RS-holdout准确性最低：由于验证集生成的高随机性，RS-holdout在超参数选择上存在较大变异性 holdout策略的现实意义：在计算资源受限时，holdout可作为CV的折中方案，但需要注意随机性带来的不确定性建模工作流建议基于HPO策略的比较结果，研究提出了两种场景下的工作流：步骤充足计算资源（面板B）有限计算资源（面板C） 1. 数据集划分将数据集多次划分为建模集和测试集（使用不同随机种子）选择适度的数据划分（对应中等性能的随机种子） 2. 验证集生成无需预定义验证集，使用交叉验证使用相似性划分将建模子集分为训练集和验证集 3. 超参数优化在单个建模子集上通过重复交叉验证进行HPO 在验证集上进行HPO（holdout方法） 4. 模型训练使用选定的超参数在完整建模集上重新训练模型在完整建模子集上用优化参数重新训练 5. 结果评估对多次划分的结果取平均值或选择中等表现的种子（RRS），获得更现实的性能估计在测试集上评估最终模型关键区别：充足资源时使用交叉验证和多次划分以获得更稳健的结果，有限资源时使用holdout和相似性划分以平衡准确性和效率。基于上述系统性研究发现，我们为QSAR模型的实践者提供以下建议：数据集划分选择指南场景推荐方法理由注意事项小样本（<500） SS为主，RS为辅 SS提供更稳定的性能估计必须外部验证，内部性能可能误导中等样本（500-5000） RS和SS并行比较两者外部性能接近，无明确优势报告两种方法的结果大样本（>5000） RS为主 RS外部性能更好，且计算效率高仍然需要多次重复实验化学筛选场景 SS优先需要预测真正“新”的化合物重点关注外部验证标准建模场景 RS优先目标是构建通用模型交叉验证即可模型验证最佳实践必须进行外部验证：仅报告内部测试性能是不够的，必须使用独立外部数据集验证模型多随机种子重复：至少使用5-10个不同随机种子，报告均值和标准差报告训练集重叠率：特别是使用SS时，应报告不同随机种子下训练集的重叠率敏感性分析：系统评估不同训练集比例（20%、40%、60%、80%）下的性能差异避免“cherry-picking”：不要只报告表现最好的随机种子结果报告规范在发表QSAR模型研究时，应完整报告以下信息：数据集划分方法：RS还是SS？具体算法是什么？随机种子：使用了哪些随机种子？是否重复实验？训练集比例：训练集、验证集、测试集的比例是多少？重叠率分析：不同随机种子下训练集的重叠率是多少？内部vs外部性能：同时报告内部测试集和独立外部数据集的性能性能波动范围：不同随机种子下的性能分布（箱线图或均值±标准差） Q&A Q1：为什么SS在内部测试集上表现更好，但无法转化为外部优势？这不合理啊？ A1：这个现象初看确实反直觉，但有其深刻原因。SS的核心假设是“测试集应该与训练集在化学空间中分离”，但这可能导致两个问题：测试集偏差：SS倾向于选择“边界”化合物进入测试集，这些化合物可能更具“挑战性”，导致模型在内部测试时表现“较差”，但这个“较差”并不代表外部预测能力弱训练集代表性：SS为了确保训练集和测试集的分离，可能牺牲了训练集的多样性，导致模型过拟合训练集的特定化学子空间，而对其他子空间的泛化能力下降形象地说，SS就像让学生考试“超出教学大纲”，学生在内部测试时表现较差（因为题目确实没见过），但这不代表他们在真实考试（外部预测）时会更差。真实考试可能既有一些“超纲题”，也有一些“常规题”，SS的学生可能在“常规题”上反而表现不佳。 Q2：本研究只用了环境化学数据集，结论是否适用于其他QSAR任务（如活性预测、物化性质预测）？ A2：本研究使用的数据集涵盖了环境化学的不同性质和规模（从964到11442个样本），具有一定代表性。但是，不同QSAR任务的特性可能不同：物化性质预测（如本研究）：数据集规模通常较大，性质与结构关系较直接，RS可能更合适毒性预测：通常数据集较小，且化合物结构多样性高，SS可能更有优势活性预测：通常针对特定靶点，化合物可能集中在特定化学空间，RS可能更合适因此，本研究的核心方法论和发现是通用的（如内部性能不可靠、随机种子影响大、必须外部验证），但具体的RS vs SS选择需要根据具体任务和数据特性调整。关键结论与批判性总结潜在影响强化了外部泛化是核心指标的共识：单看内部测试很容易得出过度乐观的结论提醒社区避免挑选随机种子与挑选划分策略造成的结论偏差，强调透明与可复现将数据集划分从技术细节提升为科学问题的一部分，要求与真实应用场景对齐存在的局限性与适用边界结论主要建立在五个毒性数据集与既定评估流程上，仍需在更多任务类型与场景下验证研究显示在低采样比例下，SS不一定优于RS，内部优势可能源于测试集变得更容易的组成偏差即便引入适用域筛选，外部测试的波动仍显著小于内部测试，说明内部好看不等于外部可靠未来研究方向建立与真实应用对齐的测试集构建规范，明确外部测试集的角色与构建逻辑完整记录并公开随机种子与划分细节，提升跨研究的可比性与可复现性系统评估不同划分与适用域策略在外部数据上的稳健性，优先强调可迁移的泛化能力

Machine Learning & AI · 2026-03-03

ChemLint对话式分子机器学习平台揭开数据质量危机：63.6%测试集骨架已在训练集中出现

ChemLint对话式分子机器学习平台揭开数据质量危机：63.6%测试集骨架已在训练集中出现本文信息标题： ChemLint: Conversational Cheminformatics with Large Language Models 作者： Derek van Tilborg, Francesca Grisoni 发表时间： 2026年2月24日单位：荷兰埃因霍温理工大学，复杂分子系统研究所、生物医学工程系引用格式： van Tilborg, D., & Grisoni, F. (2026). ChemLint: Conversational Cheminformatics with Large Language Models. ChemRxiv Preprints. https://doi.org/10.26434/chemrxiv.15000386/v1 源代码： https://github.com/derekvantilborg/ChemLint 摘要本研究提出了ChemLint，这是一个开源的Model Context Protocol服务器，它将任何兼容MCP的大语言模型连接到精选的本地化学信息学和机器学习工具套件，通过对话界面实现严格的分子数据处理。分子机器学习研究常常受到不一致数据预处理的破坏，包括无效SMILES、未解决的重复项和训练测试泄漏，然而现有的基于LLM的化学工具并没有解决这些以数据为中心的挑战。ChemLint为数据探索和诊断、分子标准化以及机器学习建模提供了工具。所有操作都由既定的库确定性执行，并记录在项目清单中，追踪每个操作，支持可复现性并使管理选择明确。我们通过几个示例展示了ChemLint如何用于识别常见的数据质量问题、评估分割策略以及执行从原始数据到评估的完整建模流程。核心结论 & 贡献【科学发现】分子机器学习的数据质量危机被系统性揭示本研究首次对MoleculeNet的7个主流数据集进行系统审计，揭示了令人震惊的数据质量缺陷，详见“被忽视的领域危机”部分最致命的发现：随机分割导致训练集和测试集之间的scaffold重叠率高达42.5%至63.6%，这意味着数千篇已发表论文的模型性能可能被严重高估【工具贡献】ChemLint通过MCP协议提供约150个对话式工具，重构分子机器学习工作流 ChemLint是一个开源的Model Context Protocol（MCP）服务器，它将任何兼容MCP的大语言模型（Claude、ChatGPT、Gemini等）连接到精选的本地化学信息学和机器学习工具套件。系统性地提供13类约150个工具，涵盖数据管理、分子清洗、描述符、机器学习（33种算法、6种交叉验证、超参数调优）、统计检验、可视化、质量报告等领域所有操作由既定的库（RDKit、scikit-learn、SciPy）确定性执行，并记录在项目清单中，支持可复现性并使管理选择明确。背景被忽视的领域危机分子机器学习正在显著影响药物发现的范式——从虚拟筛选到性质预测，再到从头分子设计，越来越多的研究依赖于数据驱动的建模方法。然而，在这个蓬勃发展的领域背后，隐藏着一个被长期忽视的危机：主流基准数据集存在严重的数据质量问题，这正在系统性地高估模型性能，并从根本上动摇了人们对已发表研究的信任。 MoleculeNet自2018年发布以来，已被引用数千次，成为分子机器学习领域无可争议的最广泛使用的基准数据集。然而，本研究首次系统性地审计揭示，这些黄金标准数据集存在令人震惊的根本性缺陷： HIV数据集：7.5%的分子包含盐或溶剂片段——这些杂质根本不应该出现在药物分子数据中 HIV数据集：完全未指定立体化学，比例为0%——这意味着所有手性分子的3D结构信息都丢失了所有数据集：普遍存在化学无效SMILES、未指定的立体化学中心、隐藏的结构异构体重复最致命的问题：随机分割导致训练集和测试集之间的scaffold重叠率高达42.5%至63.6% 这意味着什么？基于这些数据集和随机分割发表的数千篇论文——包括高引用研究——其性能评估可能严重高估模型的真实能力。现有工具的局限性虽然分子数据预处理的最佳实践已经存在，但在实践中并不总是得到一致应用。该领域的跨学科性质意味着并非所有研究人员和审稿人都熟悉这些惯例，而常见的工具链是灵活的而非规定性的。现有的基于LLM的化学工具（如ChemCrow、ChatInvent等agent系统）主要关注协调端到端的分子设计和合成工作流，但并未解决这些以数据为中心的挑战。这些工具在数据质量控制、标准化和可复现性方面存在明显的空白。关键科学问题面对这一危机，本研究提出了三个亟待解决的关键科学问题：如何让数据质量控制变得普及化？数据质量问题的检测和修复需要深度的专业知识，但每个研究人员都应该能够轻松地识别和解决这些问题，而不需要成为化学信息学专家。这需要工具的智能化和自动化。如何让数据预处理的选择变得完全透明？不同的标准化和分割策略会导致截然不同的结果，但这些关键选择往往在论文的方法部分被一笔带过，使得读者无法评估其合理性，也无法真正复现研究结果。这需要标准化和可追溯性。如何让工作流变得完全可复现？从原始数据到最终模型，每一个中间步骤、参数选择和数据处理决策都应该被完整记录和精确追踪，但目前缺乏自动化和标准化的解决方案。这需要系统性的框架设计。创新点本研究在方法论和工具设计上提出了四个关键改进：首个专注于数据质量的对话式化学信息学系统：ChemLint不同于现有的agent系统，它不盲目追求端到端的自动化，而是专注于分子数据的质量控制、诊断和可复现评估，通过对话界面让研究人员以自然语言的方式执行严格的数据管理操作。这种设计理念强调严谨性优于便利性的原则。基于Model Context Protocol的开放模块化架构：通过MCP协议，ChemLint可以连接任何兼容的LLM客户端，例如Claude、ChatGPT、Gemini等，同时保持所有计算在本地执行，使用既定的化学信息学库（RDKit、scikit-learn、SciPy等），确保结果的确定性和可审计性。这种架构设计既保证了科学严谨性，又提供了前所未有的灵活性。项目清单系统实现完全可追溯性：ChemLint引入了项目清单的概念，每次数据变异操作都会创建新的资源版本，并自动记录操作类型、时间戳、输入参数和用户提供的解释，形成完整的审计轨迹，使得从原始数据到最终模型的每一个步骤都可追溯和复现。这一设计借鉴了实验室笔记本的理念，但将其自动化和系统化了。系统化的分割质量诊断：ChemLint提供了8项系统检查来检测数据分割的潜在问题，包括精确重复SMILES、基于相似性的泄漏、scaffold重叠、立体异构体/互变异构体变体、物理化学性质分布差异、标签分布差异、官能团组成差异等，并给出明确的警告和建议。这种全面性和系统性的诊断在领域内是前所未有的。研究内容 ChemLint系统架构 ChemLint的核心设计理念是将大语言模型的对话能力与化学信息学的严谨方法相结合，通过Model Context Protocol实现两者的无缝集成。系统架构包含三个核心组件：数据探索和诊断、分子标准化、以及机器学习建模，并通过一个跨层面的可复现性系统，即项目清单系统，支撑所有功能。图1：ChemLint系统架构概览 ChemLint通过MCP协议与LLM客户端通信，将用户的自然语言提示转换为具体的化学信息学操作，并在本地执行计算，返回结果的同时记录操作到项目清单。这种设计确保了所有操作都是确定性的、可追踪的。系统工作流程 graph TB Start([用户输入自然语言提示]) --> Parse{LLM客户端解析提示} Parse -->|数据探索| Diag[数据探索与诊断工具] Parse -->|分子标准化| Std[分子标准化工具] Parse -->|机器学习建模| ML[机器学习建模工具] Diag --> Exec[本地执行 RDKit/pandas/scikit-learn] Std --> Exec ML --> Exec Exec --> Mutate{是否修改数据?} Mutate -->|是| Create[创建新资源版本 生成唯一标识符] Create --> Log[记录操作到项目清单 操作类型+时间戳+参数+解释] Log --> Return[返回结果到LLM客户端] Mutate -->|否| Return Return --> End([显示结果给用户]) 这个工作流程确保了所有数据变异操作都被记录，形成了完整的审计轨迹。每次操作都会创建新的资源版本，而不是就地修改，这样可以回溯到任何历史状态。 ChemLint的核心功能全景 ChemLint向LLM客户端暴露约150个工具，涵盖分子机器学习工作流的各个环节，系统性地分为13个功能类别：数据管理：共15个工具，覆盖数据导入、导出、合并、子集提取、检查、过滤数据集分子清洗：共10个工具，覆盖SMILES标准化、去盐、去重、标签处理分子描述符：共12个工具，覆盖简单性质（分子量、LogP、TPSA）、指纹（ECFP、MACCS、RDKit）、SMILES编码骨架分析：共8个工具，覆盖Bemis-Murcko骨架提取、通用骨架、循环骨架、多样性分析相似性分析：共6个工具，覆盖成对相似度矩阵、k-近邻、训练集相似度评估聚类分析：共5个工具，覆盖DBSCAN、层次聚类、k-means、Butina聚类算法机器学习：共40个工具： 33种算法：分类与回归（随机森林、梯度提升、SVM、线性模型、集成方法） 6种交叉验证策略：k-fold、分层、Monte Carlo、scaffold、cluster、leave-P-out 超参数调优：网格搜索、随机搜索，可自定义参数空间模型评估：20+种评估指标（准确率、ROC-AUC、PR-AUC等）、混淆矩阵、ROC曲线、校准曲线统计检验：共15个工具，覆盖t检验、方差分析（ANOVA）、相关性分析、正态性检验、Mann-Whitney U检验、Kruskal-Wallis检验、卡方检验可视化：共8个工具，覆盖带分子提示的交互式散点图、直方图、密度图、箱线图、热图质量报告：共5个工具：数据质量分析：19个部分的全面报告（PAINS过滤器、Lipinski规则、重复检测、立体化学完整性等）分割质量分析：8项数据泄漏检查（精确重复、高相似度对、scaffold重叠、立体异构体、互变异构体等）骨架报告：多样性度量（Gini系数、Shannon熵）、富集分析、结构离群点检测活性悬崖检测：共4个工具，寻找结构相似但活性差异大的分子对（分类和回归任务）异常值检测：共6个工具，覆盖Z-score、IQR、孤立森林、局部异常因子（LOF）降维可视化：共2个工具，PCA、t-SNE用于化学空间可视化分子标准化：11步严谨流程分子标准化是数据质量控制的核心步骤。ChemLint提供了一个11步的标准化流程，每一步都有明确的化学和统计学依据。整理表：ChemLint分子标准化的11步流程步骤操作化学原理适用场景 1 生成规范SMILES RDKit的canonicalization算法确保唯一表示所有分子 2 移除盐去除抗衡离子，保留母核结构来源自多处的数据集 3 移除溶剂去除结晶溶剂、反应溶剂片段药物筛选数据集 4 去碎片化保留最大片段，去除不相连的离子/分子包多个片段的SMILES 5 官能团规范化标准化常见官能团表示（如硝基、磺酸基）多来源数据集 6 去离子化移除金属离子，保留有机骨架有机金属化合物数据集 7 电荷中性化将可电离基团转为中性形式非pH依赖性研究 8 移除同位素去除同位素标记放射性标记不重要时 9 互变异构规范化统一互变异构体表示需要一致性的数据集 10 立体化学扁平化移除所有立体化学信息立体化学不完全指定时 11 最终验证检查化学有效性，移除无效分子质量控制最后一步这些步骤并非总是全部应用，而是应该根据数据集的具体情况和研究目标进行选择。ChemLint的优势在于它让每一步的决策都变得显式，并在项目清单中记录下来。 Supplementary Figure S1：标准化协议的交互决策界面这张图展示了ChemLint在执行11步标准化协议时与用户的交互界面。当需要用户做出重要的标准化决策时（如是否保留电荷、是否扁平化立体化学等），客户端会向用户询问选择，确保每一步都符合研究需求。标准化流程的Mermaid图 graph TB Input[原始SMILES数据集] --> S1 subgraph S1["阶段1：结构规范化"] direction LR Step1[1.生成规范SMILES RDKit canonicalization] --> Step2[2.移除盐 去除抗衡离子] --> Step3[3.移除溶剂 去除结晶/反应溶剂] --> Step4[4.去碎片化 保留最大片段] --> Step5[5.官能团规范化 统一常见官能团表示] end subgraph S2["阶段2：化学性质调整"] direction LR Step6[6.去离子化 移除金属离子] --> Step7[7.电荷中性化 可电离基团转中性] --> Step8[8.移除同位素 去除同位素标记] end subgraph S3["阶段3：结构简化与验证"] direction LR Step9[9.互变异构规范化 统一互变异构体] --> Step10[10.立体化学扁平化 移除立体化学信息] --> Step11[11.最终验证 检查化学有效性] end S1 --> S2 --> S3 Step11 --> Output[标准化后数据集] Step11 -->|发现无效分子| Reject[移除无效分子] Reject --> Step11 style Input fill:#e1f5ff style Output fill:#c8e6c9 style Step11 fill:#fff9c4 数据探索与诊断在开始任何建模工作之前，了解数据集的质量和特性是至关重要的。ChemLint提供了两个主要的诊断报告。数据质量报告数据质量报告执行广泛的数据检查，涵盖基础数据集统计、分子有效性、物理化学性质、统计分布和结构特征等多个方面：结构有效性检查：识别化学无效的SMILES字符串，违反价态规则的原子，无法解析的分子结构杂质检测：检测并计数盐抗衡离子、溶剂片段、无机离子立体化学完整性：统计手性中心（四面体立体中心）的指定情况，立体双键的E/Z指定情况电荷状态分析：统计携带形式电荷的分子比例，分析电荷分布模式 scaffold多样性：计算Bemis-Murcko scaffold的数量和分布，评估骨架多样性官能团分布：识别和统计常见官能团的出现频率，检查不同数据集间官能团组成的差异标签分布分析：对于分类任务，检查类别平衡；对于回归任务，检查数值分布和异常值结构活性相关性：计算分子描述符与活性标签的相关性，识别潜在的结构活性关系药物相似性过滤：Lipinski Rule of Five、Veber规则、QED阈值违规检测异常值检测：使用IQR方法进行异常值检测这些检查最终会生成一份优先级排序的清理建议列表，每个问题都被分配严重程度级别（“OK”、“low”、“medium”、“high”、“critical”），帮助研究人员系统性地解决数据质量问题。分割质量报告分割质量报告专门针对数据集的分割策略进行诊断，执行以下8项检查：精确重复泄漏：训练集和测试集中是否存在完全相同的SMILES（分子编码）高相似度泄漏：检测训练集和测试集中是否存在高度相似的分子对（相似度>90%，就像“同卵双胞胎”一样） scaffold重叠：训练集和测试集之间共享Bemis-Murcko scaffold（分子骨架）的比例立体异构体泄漏：在扁平化立体化学后，检查结构异构体是否跨越分割互变异构体泄漏：在规范化互变异构体后，检查结构异构体是否跨越分割分布差异：比较训练集和测试集的分子性质分布（分子量、logP、极性表面积等）类别分布：对于分类任务，检查类别的平衡性聚类分析：通过聚类方法识别潜在的聚集结构标签质量处理实验生物活性数据不可避免地包含测量误差、缺失值、带有异常值的技术重复，以及对相同分子的矛盾测量结果。然而，许多已发表的研究临时性地处理这些问题或完全忽略它们。 ChemLint提供了系统性的工具来识别和解决标签质量问题：缺失值处理：自动识别并移除缺失的活性值异常值检测：支持多种统计方法（Z-score、修正Z-score、IQR、Grubbs检验、广义ESD），并可配置阈值重复分子处理：对于具有矛盾标签的重复分子（例如，在分子标准化后聚合的立体异构体），ChemLint可以通过统计检验确定这些冲突代表真实的测量变异性还是系统性分歧合并策略：提供多种重复合并策略（多数投票、均值、中位数）或完全丢弃有冲突的条目数据集分割策略数据分割是将分子数据集分成训练集（用于学习，相当于“练习题”）和测试集（用于评估，相当于“考试”）。分割策略的选择会严重影响模型性能评估的可靠性。整理表：ChemLint支持的4种数据集分割策略分割策略原理适用场景局限性随机分割完全随机分配分子到训练/测试集先导化合物优化（内插性能）严重高估外推性能分层分割保持标签分布一致类别不平衡的数据集仍然存在结构泄漏 scaffold-based 相同scaffold的分子分配到同一集合评估新颖scaffold的泛化能力互变异构可能改变scaffold导致泄漏 cluster-based 基于分子相似性聚类，整个聚类分配到同一集合评估分子簇的泛化能力聚类算法和参数选择影响结果对于cluster-based分割，ChemLint支持5种聚类算法（DBSCAN、层次聚类、谱聚类、k-means、Butina），可以使用所有可用的分子表示方法。在经验上，更严格的分割策略（scaffold-based和cluster-based）往往比随机分割的准确率低10%至30%，但这揭示了在结构新颖分子上更现实的预测性能估计。机器学习建模 ChemLint提供了33种经典机器学习算法，涵盖分类和回归任务。这些算法包括：集成方法：随机森林、AdaBoost、梯度提升线性模型：岭回归、Lasso、Elastic Net 支持向量机：支持分类和回归最近邻：k-近邻算法决策树：单棵可解释树朴素贝叶斯：高斯朴素贝叶斯、多项式朴素贝叶斯判别分析：线性判别分析、二次判别分析为确保稳健的性能估计，ChemLint支持多种交叉验证策略（交叉验证就像多次“小考”取平均，避免一次考试的偶然性）： k-fold交叉验证（将数据分成k份，轮流用每一份做测试）分层交叉验证（保证每个分割中类别比例一致） scaffold-based交叉验证（确保相同骨架的分子在同一分割） cluster-based交叉验证（将相似分子聚簇后分配到同一分割） Monte Carlo交叉验证（随机重复多次分割） leave-p-out交叉验证（每次留出p个样本做测试）对于不确定性量化，部分算法支持贝叶斯集成变体，通过计算预测标准差或集成熵来量化预测不确定性。超参数调优与模型评估 ChemLint不仅提供模型训练，还支持完整的模型优化和评估流程：超参数调优：支持网格搜索和随机搜索，研究者可以自定义参数空间，自动寻找最优模型配置模型评估指标：提供20+种评估指标，包括准确率、精确率、召回率、F1分数、ROC-AUC、PR-AUC等，以及混淆矩阵、ROC曲线、校准曲线等可视化交互式可视化：生成带分子提示的散点图（鼠标悬停可查看分子结构）、热图、密度图、箱线图等，帮助直观理解数据分布和模型行为统计检验：支持15+种统计检验方法（t检验、方差分析、Mann-Whitney U检验、Kruskal-Wallis检验、卡方检验、正态性检验等），用于验证结果的统计显著性异常值检测：提供4种异常值检测方法（Z-score、IQR、孤立森林、局部异常因子），识别数据中的离群点应用示例1：主流基准数据集的质量审计作为首次演示，研究团队使用ChemLint评估了MoleculeNet的7个流行单任务基准数据集的质量，仅用一个对话提示：“Check the data quality of dataset.csv”。 Supplementary Figure S2：数据质量报告实际输出示例这张图展示了ChemLint生成的数据质量报告的实际界面，包括结构有效性检查、杂质检测、立体化学完整性分析等多维度诊断结果。可以看到对每个数据集的详细统计信息和改进建议。表1：MoleculeNet数据集的质量问题统计数据集样本量无效分子带电荷分子含盐/溶剂片段手性中心指定率 E/Z指定率结构异构体组数 BACE 1,513 0 55.92% 0.00% 3,150 (25.5%) 97 (29.9%) 45 BBBP 2,050 11 5.74% 5.12% 4,425 (66.0%) 726 (21.5%) 92 ClinTox 1,484 4 60.20% 0.94% 3,731 (82.1%) 537 (37.2%) 80 Delaney 1,128 0 5.23% 0.00% 701 (0.0%) 154 (3.9%) 13 FreeSolv 642 0 5.92% 0.00% 87 (98.9%) 36 (27.8%) 3 HIV 41,127 7 12.78% 7.51% 49,613 (0.0%) 13,481 (0.0%) 181 Lipophilicity 4,200 0 2.36% 0.02% 2,530 (72.9%) 192 (39.1%) 82 结果揭示了几个令人担忧的问题：化学无效SMILES普遍存在：BBBP数据集包含11个无效SMILES，HIV有7个，ClinTox有4个盐和溶剂片段污染：许多条目包含盐抗衡离子或溶剂片段，HIV数据集高达7.5% 电荷状态不一致：超过55%的BACE分子和60%的ClinTox分子携带形式电荷立体化学不完全指定：HIV数据集完全未指定立体化学（0%），其他数据集的指定率也普遍较低隐藏的结构异构体重复：在扁平化立体化学和规范化互变异构体后，发现了大量隐藏的冗余然后，研究团队要求ChemLint清理每个数据集：“Clean this dataset so it’s ready for machine learning (don’t split the data yet). After cleaning, run another data quality analysis.” Supplementary Figure S3：数据集清洗对话界面示例这张图展示了LLM客户端通过对话界面调用ChemLint工具执行数据集清洗的实际过程。展示了从标准化SMILES、移除盐和溶剂、去碎片化、电荷中性化到立体化学扁平化的完整清洗流程，以及ChemLint自动记录的每一步操作和参数。由于除了HIV之外的所有数据集都是从多个原始来源编译的，团队让客户端对所有数据集进行电荷中性化、移除片段和扁平化立体化学，因为这些分子细节不太可能反映跨原始来源的一致实验条件。标准化效果是显著的： BACE数据集：带电荷分子从约56%降至约2%，丢弃了66个分子（主要包含无效结构或冲突的重复标签） ClinTox数据集：带电荷分子从约60%降至约8%，丢弃了144个分子 HIV数据集：带电荷分子从约3%增至约13%（因为去除了溶剂和盐片段，暴露了更多带电分子），丢弃了238个分子所有7个数据集：在标准化后，都免于无效分子、盐和片段，残留电荷主要反映永久离子物种表2：标准化后的数据集质量数据集样本量（丢弃数）无效分子带电荷分子含盐/溶剂片段 BACE 1,447 (66) 0 1.9% 0.00% BBBP 1,922 (128) 0 3.2% 0.00% ClinTox 1,340 (144) 0 8.1% 0.00% Delaney 1,114 (14) 0 5.6% 0.00% FreeSolv 639 (3) 0 5.9% 0.00% HIV 40,889 (238) 0 13.1% 0.00% Lipophilicity 4,092 (108) 0 2.4% 0.00% 应用示例2：数据分割质量危机的揭示这是本研究最震撼的发现。作为第二个演示，研究团队使用ChemLint系统性地分析了MoleculeNet提供的预定义数据分割的质量，结果揭示了一个被整个领域忽视的严重问题。对于每个数据集，ChemLint生成了一个详细的分割质量报告，解释每种分割方法的优缺点，并给出明确的警告。例如，对于Lipophilicity数据集，ChemLint得出结论： scaffold-based分割方法提供了最可靠的评估框架，具有完全的结构分离和良好匹配的分布。Fingerprint-based分割提供了关于模型外推的有趣见解，但受到显著的域偏移影响。由于严重的结构泄漏，应该避免随机分割用于模型评估。在所有情况下，ChemLint都建议不要使用随机分割。例如，对于ClinTox，它警告说由于严重的结构泄漏，随机分割会“给出误导性的乐观结果”。表3：不同分割方法的泄漏指标对比分割方法数据集训练集（测试集） Scaffold重叠立体异构体重叠互变异构体重叠高相似度分子 ROC-AUC RMSE 随机 BACE 1,210（152） 47.1% 1 0 13 0.88 ± 0.01 - 随机 BBBP 1,631（204） 42.5% 13 11 16 0.91 ± 0.02 - 随机 ClinTox 1,184（148） 46.5% 14 10 16 0.66 ± 0.03 - 随机 Delaney 902（113） 58.1% 2 1 10 - 0.64 ± 0.00 随机 FreeSolv 513（65） 63.6% 1 0 6 - 0.46 ± 0.02 随机 HIV 32,896（4,112） 48.0% 0 4 173 0.77 ± 0.01 - 随机 Lipophilicity 3,360（420） 46.5% 18 3 31 - 0.70 ± 0.01 Scaffold BACE 1,210（152） 0.0% 0 0 2 0.73 ± 0.01 - Scaffold BBBP 1,631（204） 0.0% 0 1 0 0.67 ± 0.01 - Scaffold ClinTox 1,184（148） 0.0% 0 0 0 0.66 ± 0.08 - Scaffold Delaney 902（113） 0.0% 0 0 2 - 0.82 ± 0.01 Scaffold FreeSolv 513（65） 0.0% 0 0 1 - 0.86 ± 0.01 Scaffold HIV 32,896（4,112） 0.0% 0 8 29 0.77 ± 0.01 - Scaffold Lipophilicity 3,360（420） 0.0% 0 0 21 - 0.77 ± 0.01 Fingerprint BACE 1,210（152） 3.2% 0 0 1 0.73 ± 0.06 - Fingerprint BBBP 1,631（205） 4.6% 0 0 0 0.37 ± 0.06 - Fingerprint ClinTox 1,184（148） 5.8% 0 0 0 0.56 ± 0.10 - Fingerprint Delaney 902（114） 28.1% 0 0 0 - 1.23 ± 0.04 Fingerprint FreeSolv 513（65） 100.0% 0 0 0 - 1.36 ± 0.02 Fingerprint HIV 32,896（4,112） 10.9% 0 0 0 0.56 ± 0.03 - Fingerprint Lipophilicity 3,360（420） 4.4% 0 0 0 - 0.84 ± 0.01 对于随机分割，ChemLint识别出训练集和测试集之间的scaffold重叠范围从42.5%到63.6%，以及几个数据集中的立体异构体、互变异构体和近重复泄漏。对于scaffold-based分割，ChemLint确认大多数泄漏已解决，但指出高度相似的分子仍然可能最终出现在两个分割中，而且互变异构化偶尔会改变Bemis-Murcko scaffold，允许互变异构体对跨越集合泄漏。为什么scaffold重叠是致命的数据泄漏？ Scaffold（骨架）是药物化学中的核心概念，指分子的核心结构框架（通过移除侧链原子得到）。Bemis-Murcko scaffold是药物设计中广泛使用的分子骨架表示方法，是药物化学家的共同语言。当训练集和测试集存在scaffold重叠时，这意味着：模型学到的是记骨架而非真正的预测能力：测试集中的分子骨架在训练集中已经见过，模型只需要记住“scaffold X倾向于有高活性”，而不需要真正学习分子结构-活性关系的复杂规律。这类似于学生通过记忆题目模板而非理解原理来考试。这相当于考试前看到了部分试题：如果考试题目和练习题有相同的解题模式，考出的高分不代表学生的真实能力。在药物发现中，真正的挑战是预测全新scaffold的活性——这是最有价值的预测目标——而随机分割根本无法评估这种能力。导致虚假的最优模型选择：研究者可能选择了在随机分割上表现最好的模型，但这种模型在面对全新骨架时可能完全失效，导致资源浪费和错误的项目决策。这正是为什么scaffold重叠42.5%至63.6%是一个领域级的严重问题：它表明基于MoleculeNet随机分割发表的数千篇论文，其性能评估可能严重高估了模型的实际预测能力。在药物发现这种成本高昂的领域，这种高估可能导致数百万美元的研发投入被错误地引导。应用示例3：从原始数据到可复现的完整工作流作为第三个演示，研究团队使用ChemLint执行了从原始数据到评估报告的完整建模流程。使用Claude Desktop和Claude Sonnet 4.6作为客户端，提供了以下提示： For a drug discovery project, I want to know if the molecules I’m working with can pass the blood brain barrier. Train a robust predictive model based on this raw data set ‘/moleculenet_data/bbbp.csv’ and evaluate it critically. LLM客户端自动使用ChemLint的工具执行了以下步骤：数据质量分析：生成了全面的数据质量报告，识别了无效SMILES、盐片段、电荷状态等问题分子标准化：应用了11步标准化流程，包括规范SMILES生成、移除盐和溶剂、去碎片化、电荷中性化、立体化学扁平化等重复移除：基于规范SMILES识别重复结构，对于精确标签重复折叠为单个条目，对于无法通过二项检验解决的冲突完全移除基于scaffold的分割：将分子按80/20比例分割为训练集和测试集，确保没有scaffold重叠随机森林训练：使用ECFP4指纹（一种将分子转换为数字特征的方法）进行分子特征化，训练随机森林分类器，使用5-fold交叉验证模型评估：在保持的测试集上达到ROC-AUC为0.93±0.01（ROC-AUC是分类模型性能指标，1.0为完美，0.5为随机猜测，0.93意味着模型有很强的预测能力）为了测试清单系统的可复现性，团队创建了一个新的客户端实例，并要求它在没有访问原始提示的情况下重现实验： Check this old manifest ‘../manifest.json’ and re-do all the experimental steps exactly. You should make a new project and manifest to track everything. 客户端以相同的顺序执行了所有步骤，使用相同的参数，并达到了相同的测试集性能。这证明了项目清单系统的有效性：即使没有原始提示，仅凭清单中的操作记录，新的LLM客户端也能够完全复现整个实验。 LLM生成的Materials and Methods节选研究团队还要求客户端生成适合在科学期刊发表的材料和方法部分： Write a Materials and Methods section suitable for publishing in a scientific journal. I am tight on words so it should be to the point. 客户端自动使用ChemLint查阅项目清单，然后生成了以下文本（经人工验证每个记录的步骤确认准确）：数据集和数据管理。 BBBP数据集（2050个化合物，二元BBB渗透性标签）从MoleculeNet获得。 SMILES使用ChemLint实现的11步流程进行标准化：规范SMILES生成、盐和溶剂移除、去碎片化（保留最大片段）、官能团规范化、去离子化、电荷中性化、同位素移除、互变异构规范化、立体化学扁平化。未能通过最终验证的结构被丢弃（保留2039个；99.5%）。基于规范SMILES识别重复结构；精确标签重复折叠为单个条目，无法通过二项检验解决的冲突被完全移除，最终得到1922个化合物的管理集。数据集分割。化合物使用Bemis-Murcko scaffold-based分割分为训练集（80%，n = 1557）和测试集（20%，n = 365），集合间无scaffold重叠。无环化合物（n = 96）分配到训练集。建模。分子被特征化为ECFP4指纹（半径 = 2，2048位），使用scikit-learn的随机森林分类器（默认超参数）通过ChemLint进行5-fold scaffold交叉验证训练。所有实验使用固定随机种子（42）。这个例子表明，即使LLM客户端在不同提示下可能行为不同，通过清单系统建立清晰的审计轨迹使得即使在对话设置中也能实现可复现性。实现细节 ChemLint向MCP兼容的LLM客户端暴露约150个工具，使用mcp-cli包。每个工具对应单个、范围明确的分子数据操作。计算工作委托给既定的库，主要是： RDKit：用于分子处理和化学信息学计算 pandas：用于数据集处理 scikit-learn：用于建模和统计程序 SciPy：用于统计检验 ChemLint的功能围绕三个典型的分子机器学习工作流层次组织：（1）数据探索和诊断，（2）分子标准化，以及（3）机器学习建模。一个跨层面的可复现性系统支撑着这三个层次。资源管理资源管理通过为每个文件分配唯一标识符来处理，该标识符附加到客户端提供的文件名上（例如，cleaned_data_A3F2B1D4.csv）。这些存储为数据集列，使得失败是透明的，包括哪些分子在哪个步骤被拒绝以及原因。这是故意冗长的，因为诊断拒绝原因往往比获得单个最终的“清理的”数据集更重要。项目清单系统项目清单是ChemLint可复现性的核心。对于每个创建的工件，清单记录：资源类型：数据集、模型、报告等时间戳：创建时间创建工具：哪个工具创建它输入参数：使用的所有参数客户端提供的解释：为什么执行这个操作这个清单存储在项目目录的manifest.json文件中，可以被客户端和用户访问，使得每个中间资源都可以被回溯。当前范围与局限当前的范围专注于2D分子表示和定量构效关系（Quantitative Structure-Activity Relationship，QSAR，即通过分子结构预测其生物活性的方法）建模工作流典型的功能。3D构象体生成、量子化学和深度学习模型训练等功能在当前版本中故意排除在外，以保持ChemLint专注于数据质量、诊断和可复现评估，而不是充当通用建模环境。 Q&A Q1：ChemLint与现有的化学agent系统（如ChemCrow、ChatInvent）有何区别？ A1：ChemLint专注于数据质量控制、诊断和可复现评估，而ChemCrow和ChatInvent等agent系统专注于协调端到端的分子设计和合成工作流。主要区别包括：定位不同：ChemLint不试图取代传统的建模环境，也不消除对专家判断的需求，而是通过降低领域准入门槛和提供结构化框架来减少数据处理决策的歧义开放性：ChemLint基于Model Context Protocol，这是一个开放标准，使得它可以与任何MCP兼容的LLM客户端（Claude、ChatGPT、Gemini等）集成，而agent系统通常绑定到特定的模型或平台 Q2：为什么scaffold-based分割会降低模型性能，这难道不是说明模型变差了吗？ A2：这是一个常见的误解。scaffold-based分割降低的准确率实际上揭示了模型在结构新颖分子上的真实泛化能力，而随机分割的高准确率往往是虚假的，因为训练集和测试集之间存在结构泄漏。考试比喻：如果你在考试前看到了大部分试题的答案，你的考试成绩会很高，但这并不代表你真正掌握了知识机器学习对应：随机分割让模型在考试前“看到”了类似的结构，而scaffold-based分割确保模型在面对全新scaffold时进行真正的“开卷考试” 实证数据：研究表明，更严格的分割策略往往比随机分割的准确率低10%至30%，但这更接近模型在实际应用中的表现 Q3：ChemLint的项目清单系统如何确保可复现性，它是否记录了足够的信息？ A3：项目清单系统记录了每个操作的完整上下文：资源类型、时间戳、创建工具、输入参数和用户提供的解释。全面性：这比传统的实验室笔记本更全面，因为它不仅记录了“做了什么”，还记录了“怎么做的”和“为什么做” 可复现性验证：在示例3中，一个新的LLM客户端实例仅通过读取manifest.json文件，就能够完全复现整个实验，达到相同的测试集性能。这种级别的可复现性在分子机器学习领域是前所未有的局限性：清单系统并不完美，它依赖于LLM客户端正确解释和执行清单中的指令，而且它不能记录环境差异（如RDKit版本、Python版本等），这些可能仍需要通过容器化（如Docker）来解决关键结论与批判性总结潜在影响 ChemLint通过将大语言模型的对话能力与化学信息学的严谨方法相结合，显著降低了分子数据管理的准入门槛，使得非专家研究人员也能执行严格的数据质量控制。这一贡献的意义在于：它将需要深厚专业知识的复杂操作，转化为通过自然语言即可完成的日常任务。更重要的是，通过项目清单系统，ChemLint让数据预处理的选择变得前所未有的透明，使得每个决策都被记录和追踪。这有助于从根本上提高分子机器学习研究的可复现性和可信度。然而，ChemLint的最重要的贡献在于它系统性揭示的数据质量危机。主流基准数据集的严重质量问题（无效SMILES、盐/溶剂片段、立体化学不完全指定、隐藏重复）以及数据分割的普遍泄漏问题（scaffold重叠高达63.6%），表明我们需要重新审视许多已发表研究的结论，并在未来的研究中采用更严格的数据管理和评估标准。这一发现的意义远超工具本身：它挑战了整个领域的基础假设，并可能推动分子机器学习研究范式的再校准。局限性 2D表示的限制：ChemLint当前专注于2D分子表示和QSAR（定量构效关系，即通过分子结构预测生物活性）建模工作流，不支持3D构象体生成、量子化学计算和基于结构的建模方法，这些对于某些药物发现任务（如分子对接、结合自由能计算）是必不可少的深度学习支持缺失：ChemLint目前仅提供经典机器学习算法（33种），不支持深度学习模型（如图神经网络、 Transformer模型），而这些模型在分子性质预测和分子生成任务中越来越流行环境依赖未隔离：虽然清单系统记录了所有操作和参数，但它不隔离计算环境（RDKit版本、Python版本、依赖库版本等），这些环境差异可能在不同机器或时间点导致结果不一致未来发展方向 ChemLint的设计理念是通过将对话界面与基于约束的API配对，支持数据集探索、系统性诊断常见数据质量问题，以及应用最佳实践策略，而无需依赖临时脚本或未记录的手动步骤。正如原文Conclusion部分所指出的，ChemLint虽然不取代传统的建模环境，也不消除对专家判断的需求，但它降低了领域准入门槛，提供了结构化框架来减少数据处理决策中的歧义，最终提高分子机器学习工作流的透明度和可复现性。批判性思考 ChemLint暴露了问题还是真正解决了问题？ ChemLint的价值首先在于系统性揭示了数据质量危机，这是其最重要的贡献。它提供了诊断工具和manifest系统，但这些工具的实际影响将取决于其采用率如果大多数研究者继续使用随机分割而不检查数据质量，问题依然存在。更重要的是，ChemLint无法从根本上解决问题：我们需要从头构建高质量、无泄漏的基准数据集，而不仅仅是诊断现有数据集的问题。这一挑战需要整个社区的共同努力降低门槛是否总是好事？对话式界面确实让非专家更容易使用化学信息学工具，但这可能是一把双刃剑如果使用者不理解数据质量的重要性，更容易的工具可能产生更多低质量研究——这是对领域的双重打击：既有问题被更广泛地传播，同时因为“专业性门槛降低”而更难被发现作者也明确指出ChemLint“不消除对专家判断的需求”，这提示我们需要在“易用性”和“必需的领域知识”之间找到微妙但关键的平衡问题为何持续了7年？ MoleculeNet于2018年发布，这些质量问题一直存在，但为什么直到现在才被系统性地审计？这反映了领域的几个深层次问题：审稿人和编辑可能没有要求数据质量报告，导致缺乏制度性压力研究者可能倾向于选择“更容易达到高性能”的方法（随机分割），导致存在结构性激励偏差领域缺乏标准化的数据质量评估流程和共同的最佳实践 ChemLint的出现是一个重要的开始，但真正解决问题需要整个领域的文化和标准改变。这可能需要：期刊要求提供数据质量报告、审稿人更加关注数据分割策略、以及社区共同努力构建新的高质量基准数据集。

Machine Learning & AI · 2026-02-27

TradePool：用PubChem指纹子结构池化与映射，给GNN分子性质预测提供可量化的原子归因

TradePool：用PubChem指纹子结构池化与映射，给GNN分子性质预测提供可量化的原子归因本文信息标题：TradePool：一种用于量化分子性质预测中原子归因的新型可解释框架作者：Bingwei Ni, Wanxiang Shen（申万祥）, Zhuyifan Ye* 发表时间：2025年12月22日单位：澳门理工大学（中国澳门），宁波大学药物发现技术研究院（中国浙江），浙江大学药学院（中国杭州）引用格式：Ni, B.; Shen, W.; Ye, Z. TradePool: A Novel Interpretable Framework for Quantifying Atomic Attribution Values in Molecular Property Prediction. J. Chem. Inf. Model. 2025, 65, XXX–XXX. https://doi.org/10.1021/acs.jcim.5c02225 开源代码与数据：https://github.com/nibingwei123/TradePool 摘要图神经网络的可解释性一直是化合物性质预测领域的焦点。GNN在小样本化合物数据集建模上表现良好，但现有可解释方法难以准确解释原子归因值（单个原子对模型预测贡献的定量度量），使得先导化合物优化依赖资深化学家的经验，拖慢了药物开发进程。AI生成化学空间的快速扩张需要高效的可解释AI方法，这些工具能够发现超越人类直觉的洞见，补充专家知识并显著加速优化周期。为应对这些挑战，本文提出了一种新颖的双阶段原子归因值计算框架：包括基于结构池化的模型训练和基于子结构映射的原子归因值计算。该可解释框架量化任务特定的原子归因值，在芳香性/LogP/TPSA数据集上使用GCN时，原子归因准确性（计算值与真值的一致性）分别提升30%/20%/15%，Pearson相关系数达到0.93/0.63/0.88，超越了常用可解释方法仅能达到的0–0.3。此外，该方法对模型参数变化不敏感，对化合物结构变化提供相对稳定的预测结果。核心结论子结构池化+映射实现全局可解释的原子归因，显著提升与化学真值的一致性。在芳香性、LogP、TPSA三任务上，TradePool的GCN原子归因Pearson相关0.93/0.63/0.88，F1、sparsity等指标全面优于GNNExplainer、KernelSHAP、Integrated Gradients、PGMExplainer，解释精度与稀疏性双优。低频子结构筛除（出现次数<100）可抑制过拟合，保证权重的统计显著性。对模型超参数和输入分子微扰不敏感，归因稳定性优于对照方法；但在GAT上效果一般，暴露了注意力权重与子结构加权的不匹配。 PubChem指纹提供任务无关的标准子结构集合，便于跨数据集、跨架构复用，部署与迁移成本低。背景图神经网络通过消息传递捕捉分子拓扑，在溶解度、毒性、反应性等性质预测上已成为主力。但多层聚合带来的“黑盒”问题削弱了可信度，尤其在药物优化环节，需要知道哪几个原子驱动了预测。现有解释方法存在三大痛点：局部性强，难得到全局稳定的原子归因；与化学真值偏差大，Pearson相关常徘徊在0–0.3；计算代价高或对超参数敏感。子结构层面的解释更接近化学直觉，但GNN输入并未直接包含预定义子结构，如何把“可解释的子结构权重”映射回原子，成了瓶颈。关键科学问题如何在不牺牲预测精度的前提下，将GNN的决策过程转化为“子结构→原子”的可量化归因？子结构集合应如何选择，既具普适性又能捕捉任务相关模式？归因结果能否对模型参数、输入扰动保持稳定，从而在真实药物优化中可复用？创新点双阶段框架：训练时用PubChem指纹做子结构池化，解释时把子结构权重映射为原子归因。全局归因：通过线性层权重直接量化子结构重要性，再按子结构-原子掩码汇总为原子级贡献。稳健性设计：低频子结构剔除、权重聚合、多任务对比，提升对超参数和分子扰动的鲁棒性。任务通用性：同一套指纹子结构跨芳香性、LogP、TPSA乃至药物临床分子数据集均可复用。研究内容方法详述 TradePool的核心思想是将子结构作为连接原子和分子性质的桥梁。传统GNN直接从原子嵌入池化到分子表示，丢失了化学家熟悉的官能团或子结构这一中间层信息。TradePool通过引入PubChem指纹定义的881个标准子结构，在训练时显式地学习每个子结构对预测的贡献权重，在解释时将这些权重映射回原子，从而实现全局一致、化学可解释的原子归因。数据准备与清洗为什么需要严格的数据清洗？分子数据常存在SMILES表示不规范、含盐、带电荷等问题，这些会导致同一分子有多种表示形式，影响模型训练和归因评估的准确性。研究使用RDKit 2022.09.5和MolVS 0.1.1进行标准化处理，包括SMILES规范化统一分子表示确保同一分子只有唯一的SMILES字符串，去盐处理移除分子中的无机盐（如$\ce{NaCl}$、$\ce{HCl}$）只保留有机部分，中和处理将带电荷的分子转为中性形式避免电荷状态影响特征计算，以及去重按分子骨架去除重复化合物防止数据泄漏。中和应该存疑，应该是所选pH下的状态清洗后的数据按8：1：1比例划分为训练集、验证集和测试集，这种划分确保模型在训练时不会接触测试集分子，从而真实评估泛化能力。特征工程：从分子到图原子特征（71维）：每个原子用71维向量描述，包含11类信息原子类型（43维，C、N、O、S等元素的one-hot编码）、度数（11维，原子连接的其他原子数量0-10+）、隐式价（7维，未显式表示的氢原子数）电荷（原子的形式电荷如-1、0、+1）、芳香性（是否为芳香原子）、自由基电子（未配对电子数）、杂化类型（sp、sp²、sp³等）、连接氢数（显式连接的氢原子数）、手性中心（是否为手性中心）、手性类型（R/S构型）键特征（12维）包含4类信息：键型（4维，单键、双键、三键、芳香键）、共轭性（是否参与共轭体系）、是否在环中（环状结构标识）、立体化学（E/Z构型或顺反异构）这些特征由RDKit自动计算，详见Supporting Information Table S1。子结构筛选：从881位到400+位为什么要筛选子结构？ PubChem指纹包含881个预定义子结构，但并非所有子结构都在数据集中频繁出现。低频子结构（出现次数<100）在统计上不显著，可能导致模型过拟合——模型会记住这些稀有模式而非学习真正的化学规律。筛选策略：统计每个子结构在数据集中的出现频次，设定阈值为出现次数≥100次才保留，移除低频子结构以减少噪声和过拟合风险。筛选结果（图1）：芳香性任务保留416个子结构（移除465个），LogP任务保留513个子结构（移除368个），TPSA任务保留442个子结构（移除439个）图1：三类任务的子结构出现频率热图横轴：PubChem指纹子结构位；纵向颜色深浅：出现频率占比，深色表示更常见截断低频（<100次）后，仍可覆盖大多数分子，避免稀疏噪声筛选后仍能覆盖>90%的分子，说明被移除的子结构确实是稀有模式。图1的热图显示，保留的子结构在数据集中分布相对均匀，颜色深浅代表出现频率——深色表示高频子结构，浅色表示中频子结构。数据集与标签构建研究选择了三个具有明确原子归因真值的任务，这是评估XAI方法准确性的关键——只有存在可对照的真值，才能判断模型的解释是否可信。芳香性数据集（Aromaticity）为什么选择芳香性？这是唯一具有客观真值的数据集，被多篇XAI论文用作基准测试。芳香性是分子的固有结构属性，不依赖于计算方法，一个原子是否芳香可以通过Hückel规则明确判定，因此原子归因的真值是确定的。数据集来源：本文沿用Xiong等人构建的芳香性数据集，用于检验模型在原子层面的化学可解释性，标签为每个分子中芳香原子的数量。 LogP数据集（脂溶性） LogP的化学意义：LogP衡量分子的疏水性，是药物设计中的关键参数。疏水性高的分子更容易穿透细胞膜，但过高会导致溶解度差。数据集来源：本文使用Wang等人整理的脂溶性数据集，主要来自PHYSPROP数据库与Hansch汇编数据集。原子归因真值：以Crippen方法给出的原子级LogP贡献作为真值，用于评价连续归因值与真值的一致性。额外外部集合：411个FDA批准药物与10个SAMPL6挑战分子被用作外部评估，用于检验不同方法的原子归因效果在真实药物结构上的表现。 Crippen原子贡献法是什么 TradePool把Crippen方法当作LogP任务的“原子归因真值”，这一步非常关键，因为它让“解释对不对”变成了可量化的问题。方法来源：Wildman与Crippen在1999年提出一种原子类型分类体系，用原子贡献加和来预测分子的logP与摩尔折射率（MR）。核心思想：先根据每个原子的局部化学环境把它分到某个原子类型，再把对应类型的贡献值相加得到全分子的logP。计算形式：分子的logP可写作 $\log P = \sum_{i=1}^{N} a_{t(i)}$ 其中，$t(i)$表示原子$i$所属的原子类型，$a_{t(i)}$是该类型的经验贡献系数，$N$是原子数。为什么适合作为“真值”：它天然给出每个原子的数值贡献，可直接与XAI输出的连续归因值做Pearson相关比较。 RDKit里的实现：RDKit在rdkit.Chem.Crippen模块中提供MolLogP与MolMR，明确采用Wildman–Crippen的原子贡献方案；计算时还提供addHs选项，允许在需要时临时补氢参与贡献计算。实际结果会受到芳香性判定与是否显式加氢的影响，因此同一SMILES在不同标准化流程下可能出现轻微差异。需要牢记的局限：Crippen是经验模型，主要面向中性小分子；它描述的是分子在辛醇与水相之间的分配倾向，不直接等同于带电体系的logD，也不显式建模溶剂化与构象效应。参考：Wildman, S. A.; Crippen, G. M. Prediction of Physicochemical Parameters by Atomic Contributions. J. Chem. Inf. Comput. Sci. 1999, 39, 868–873. https://doi.org/10.1021/ci990307l TPSA数据集（拓扑极性表面积）为什么TPSA重要？ TPSA是药物类药性的关键指标，能够预测药物的溶解度、渗透性和药代动力学性质。一般认为，TPSA小于140 Å²的分子更容易口服吸收；极性表面积过大的分子难以穿透肠道上皮细胞，导致口服生物利用度降低。数据与真值口径：TPSA本质上是一个基于分子拓扑的分子描述符，经典定义来源于Ertl等人的碎片贡献思想。本文将TPSA作为预测标签，并以碎片贡献法得到的原子级贡献作为归因真值，用于量化解释的正确性。临床分子集（Drug-like Compounds）为什么需要临床分子集？前两个数据集虽然有真值但分子多样性有限，临床分子集包含真实的II期及以上候选药物，骨架复杂度更高，更能测试TradePool在实际药物优化场景中的可迁移性。数据集来源：作者从ChEMBL数据库收集5800个分子量0到600、处于II期及以上临床阶段的小分子；按骨架结构划分训练、验证与测试集。该任务的训练标签与原子归因真值均由RDKit计算。表1 数据集关键信息对比 | 数据集 | 总样本量 | 训练/验证/测试 | 任务类型 | 原子归因真值 | 数据来源 | 额外测试集 | | — | — | — | — | — | — | — | | 芳香性 | 3947 | 3157/395/395 | 回归（芳香原子数） | 芳香原子标签（芳香原子为1） | Xiong等构建 | - | | LogP | 16296 | 13036/1630/1630 | 回归（辛醇-水分配系数） | Crippen原子贡献 | PHYSPROP与Hansch汇编（Wang等整理） | 411个FDA药物，10个SAMPL6 | | TPSA | 5800 | 4700/550/550 | 回归（拓扑极性表面积） | 碎片贡献法原子贡献 | 文中未详述分子来源 | - | | 临床分子 | 5800 | 按骨架划分 | 由RDKit计算的分子性质 | RDKit计算 | ChEMBL（II期及以上） | - | 模型架构与训练策略 GNN编码器选择研究实现了三种主流GNN架构，以验证TradePool的通用性： GCN（图卷积网络）：每个原子聚合其邻居原子的特征，通过加权求和更新自身表示。GCN简单高效，适合捕捉局部拓扑结构，实现基于PyTorch和DGL-LifeSci 0.3.2。 GraphSAGE（图采样聚合）：采样固定数量的邻居，使用LSTM或mean聚合器处理邻居特征。GraphSAGE可扩展到大规模图，聚合方式更灵活，超参数偏好LSTM或mean聚合器。 GAT（图注意力网络）：为每个邻居分配注意力权重，动态调整不同邻居的重要性。GAT能够自适应地关注重要邻居，超参数采用4-8个注意力头，小或零dropout。所有模型使用1-3层消息传递层，ReLU激活函数，隐藏维度在128-256之间。控制组使用传统的WeightedSumAndMax池化，TradePool组替换为子结构池化。子结构池化机制这是TradePool的核心创新。传统池化直接将所有原子嵌入求和或取最大值，丢失了子结构信息。TradePool的池化过程如下：步骤1：构建子结构-原子掩码矩阵S。矩阵维度为$N \times P$，其中$N$是分子中的原子数，$P$是保留的子结构数（416/513/442），矩阵元素$S_{ij} = 1$表示原子$i$属于子结构$j$否则为0。计算方式使用RDKit的PubChem指纹生成函数，自动识别每个原子属于哪些子结构。步骤2：创建子结构虚拟节点。对于每个子结构$j$创建一个虚拟节点$V_j$，虚拟节点的特征等于所有属于该子结构的原子嵌入之和：$V_j = \sum_{i: S_{ij}=1} h_i$其中$h_i$是原子$i$经过消息传递后的嵌入向量。如果分子不包含子结构$j$，则$V_j$为全零向量。步骤3：展平与预测。将所有子结构虚拟节点展平为一维向量 $[V_1, V_2, …, V_P]$，输入到单层线性层$\hat{y} = W \cdot [V_1, V_2, …, V_P] + b$，输出预测标签（回归任务输出标量，分类任务输出类别概率）为什么这样设计有效？子结构池化强制模型通过子结构这一中间层进行预测，使得线性层的权重$W$直接对应每个子结构的重要性。这种设计天然地将可解释性嵌入模型架构，而非事后添加。图2：TradePool双阶段工作流 (A) 总览：左侧训练阶段输入分子图与子结构掩码，右侧解释阶段输出原子归因 (B) 子结构池化：同一子结构内的原子特征求和形成虚拟节点；未包含该子结构则为零向量 (C) 归因映射：线性层得到子结构权重，按掩码回分到原子，权重累加得到原子归因热图训练超参数与优化策略优化器与学习率：使用Adam优化器自适应调整每个参数的学习率，学习率通过贝叶斯优化在验证集上搜索最优值，典型范围为1e-4到1e-3。批大小设定为128平衡内存占用与梯度稳定性，最大训练轮次为200，早停策略监控验证集MAE（回归）或准确率（分类），连续10轮无改善则停止。权重初始化使用Xavier初始化，确保每层输出方差一致，避免梯度消失或爆炸。训练稳定性技巧：采用冻结策略，训练后10%的轮次仅微调线性层保持图编码部分冻结，目的是降低梯度震荡确保子结构权重稳定可解释。必要时引入L2正则化抑制极端权重，防止单一高频子结构独占权重。超参数搜索结果（SI Table S2）：隐藏维度为128-256，层数为2-3层，GraphSAGE偏好LSTM或mean聚合，GAT采用4-8个注意力头配合小或零dropout。TradePool与控制组使用相同深度，主要区别在池化方式。原子归因计算训练完成后，如何从子结构权重得到原子归因？这是TradePool的第二阶段——解释阶段。提取子结构权重不同GNN架构的权重提取方式不同，因为它们的聚合机制不同： GCN：线性层权重矩阵$W$的每一列对应一个子结构，子结构$j$的归因值等于该列所有元素之和$A_j = \sum_k W_{kj}$，原理是GCN的聚合是简单求和，权重的和反映了子结构的总贡献。 GraphSAGE和GAT：子结构$j$的归因值等于该列所有元素的L1范数$A_j = \sum_k W_{kj} $，原理是这些模型的聚合更复杂（LSTM或注意力），权重可能有正负，取绝对值后求和更稳定。映射到原子归因有了每个子结构的归因值$A_j$，如何得到每个原子的归因值？映射公式为： $\text{原子}i\text{的归因} = \sum_{j: S_{ij}=1} A_j$ 通俗解释：查找所有包含原子$i$的子结构（即$S_{ij}=1$的子结构），将这些子结构的归因值累加，累加结果即为原子$i$的归因值。化学直觉：同一子结构内的原子获得相同的基础贡献（因为它们都属于该子结构），处于多个子结构交叉位置的原子累积多重贡献（例如苯环上的碳既属于“芳香环”子结构，也属于“C=C”子结构），这种累加方式与化学家的思维一致——一个原子的重要性取决于它参与了哪些官能团。呃，其实也可以在搞原子对子结构贡献的权重的，就有点复杂了 “正归因原子”如何定义：阈值与二值化很多指标（Accuracy、Recall、F1、Sparsity）要求先把连续归因值变成二分类标签。论文对不同方法的二值化规则如下：传统XAI方法：若原子归因值大于0，则标记为正归因；否则为负归因。 TradePool方法：由于原子归因值来自子结构权重累加，作者不直接使用0作为阈值，而是在训练集上计算一个任务级阈值：对训练集中每个分子，记录其原子归因最大值与最小值；对所有分子的最大值与最小值分别取均值；再取这两个均值的平均作为阈值。验证集与测试集沿用训练集得到的阈值。通俗解释：这个阈值更像是在训练集的归因值动态范围里取一个平均中线，用它来区分相对更重要与相对不重要的原子。它并不强制每个分子都选出固定比例的原子，只是实际结果常落在中等稀疏度区间。同时，论文也把真值归因二值化用于分类指标计算：芳香性任务：芳香原子真值标签为1，其他为0。 LogP与TPSA任务：真值原子贡献大于0标为1，否则为0。评估指标体系研究采用Wang等人提出的八项XAI评估指标，全面衡量归因质量：准确性指标： Accuracy：分类任务，正确识别正/负归因原子的比例 F1-score：精确率和召回率的调和平均，平衡误报和漏报 Pearson相关：预测归因值与真值的线性相关性（-1到1，越接近1越好）稀疏性指标： Sparsity：被标记为正归因的原子比例。理想的解释应该聚焦于少数关键原子，而非高亮整个分子 Recall：真正的正归因原子中被正确识别的比例稳定性指标： Fidelity：移除正归因原子后，预测值下降的幅度。下降越多，说明这些原子确实重要 Infidelity：移除负归因原子后，预测值上升的幅度。上升越多，说明这些原子确实有负贡献 Stability：对模型参数微调（如改变随机种子）后，归因结果的一致性 Sensitivity：对输入分子微扰（如添加甲基）后，归因结果的稳定性呃，不一定非得有下降和上升的幅度很突出的原子吧，比如烷烃，都一样？这些指标从不同角度评估XAI方法：准确性衡量解释是否正确，稀疏性衡量解释是否简洁，稳定性衡量解释是否可靠。只有在所有维度都表现优秀，才能称为真正好的XAI方法。总结：TradePool双阶段框架 graph TB subgraph S1["阶段1 训练：子结构池化"] A1["分子图输入 原子71维+键12维"] --> B1["消息传递 GCN / GraphSAGE / GAT"] B1 --> C1["子结构池化 PubChem掩码求和虚拟节点"] C1 end subgraph S2["阶段2 解释：权重映射"] D1["线性层预测标签 同时产生子结构权重"] --> E1["选取子结构权重 不同模型取和或L1范数"] E1 --> F1["按掩码回分原子 归因=所有含该原子的子结构权重之和"] F1 --> G1["输出原子归因热图 稳定、可化学解释"] end S1 --> S2 图2详细展示了TradePool的核心工作流程。TradePool的创新在于将子结构作为可解释的中间层，连接原子级输入和分子级预测。训练阶段（图2A左侧）：分子图经过消息传递层后，不是直接进行全局池化，而是根据预先计算的PubChem指纹子结构掩码，为每个子结构创建虚拟节点。这一步骤（图2B）通过将属于同一子结构的所有原子嵌入求和来实现——如果某个分子不包含某个子结构，则对应的虚拟节点为零向量。这些子结构表示随后被展平并输入到线性层以预测最终标签。解释阶段（图2A右侧）：TradePool的优势得以充分体现。由于线性层的权重直接对应于每个子结构对预测的贡献，研究者可以提取这些权重作为子结构归因值。图2C展示了如何将子结构归因映射回原子：对于每个原子，查找所有包含该原子的子结构，将这些子结构的权重累加，即得到该原子的归因值。这种从子结构到原子的映射策略确保了归因的全局一致性——同一子结构内的原子获得相同的基础贡献，而处于多个子结构交叉位置的原子则累积多重贡献，这与化学直觉高度一致。结果与分析主任务预测性能：并未牺牲预测精度在GCN上，TradePool的原子归因Pearson相关：芳香性0.93，LogP 0.63，TPSA 0.88；常见解释方法多在0–0.30之间。 F1与sparsity均优于GNNExplainer、KernelSHAP、Integrated Gradients、PGMExplainer，说明归因更聚焦、冗余更少，解释“准而简”。 GAT上表现一般，源于注意力权重为标量，难与子结构权重对齐，提示池化假设需与注意力机制协同。预测精度与对照组相当或更优：TPSA任务GCN的MAE 1.157、RMSE 1.569（对照3.367、4.846），LogP任务GCN的MAE 0.299与对照0.296持平，显示可解释性增强未牺牲主任务性能（SI Tables S3–S5）。主任务预测性能是可解释性的基础。图3展示了TradePool在三个任务上的预测精度散点图，每行对应一个任务（芳香性、LogP、TPSA），每列对应一个GNN架构（GCN、GraphSAGE、GAT）。从图中可以看到，所有模型在三个任务上都取得了较高的$R^2$值，数据点紧密分布在对角线附近，表明预测值与真实值高度吻合。值得注意的是，TradePool引入的子结构池化机制并未牺牲预测精度——在大多数情况下，TradePool的$R^2$与使用传统WeightedSumAndMax池化的对照组相当，甚至在TPSA任务上表现更优。这证明了子结构池化不仅提升了可解释性，还通过结构化的中间表示增强了模型对任务相关模式的学习能力。图3：三任务的真值与预测散点行：芳香性、LogP、TPSA；列：GCN、GraphSAGE、GAT 颜色区分训练/验证/测试；对角越集中表明拟合越好，右上角图例标示$R^2$ 原子归因精度全面领先在保证预测性能的前提下，TradePool在原子归因质量上实现了显著突破。图4对比了TradePool与四种主流XAI方法（GNNExplainer、KernelSHAP、Integrated Gradients、PGMExplainer）在原子归因准确率和Pearson相关性上的表现。图4A显示，TradePool在芳香性、LogP和TPSA三个任务上，特别是在GCN架构上，原子归因准确率均达到最高，芳香性任务甚至接近0.9的准确率。图4B的Pearson相关更是揭示了TradePool的优势：在GCN上，TradePool的相关系数达到0.93（芳香性）、0.63（LogP）和0.88（TPSA），而其他方法大多徘徊在0–0.3之间，部分方法甚至出现负相关。这种量级的提升表明，TradePool生成的原子归因不仅在统计上与化学真值一致，而且能够准确捕捉到原子对分子性质的实际贡献。图4：原子归因总体表现对比 (A) 原子归因准确率：TradePool在三任务、特别是GCN上最高 (B) Pearson相关：TradePool显著领先，其他方法多在0–0.3之间图5想回答的问题是：如果一个方法把很多原子都判成关键原子，它当然容易拿到高召回，但这不一定是好解释。作者强调要同时看F1、召回与稀疏性，避免靠把整分子都高亮来“刷指标”。结论1：TradePool的召回不是靠过度归因换来的。论文指出，TradePool在芳香性与LogP任务的F1与召回都表现良好，更重要的是稀疏性维持在0.4–0.5，意味着大约只有40%–50%的原子被标为正归因，解释更聚焦、信息密度更高。结论2：KernelSHAP与PGMExplainer存在明显的过度归因倾向。它们在部分任务上召回较高，但对应稀疏性很低，说明方法倾向把接近90%的原子都判为正归因，从而抬高召回。作者认为稀疏性过高或过低都意味着解释存在缺陷：太低会导致解释冗余，太高又容易漏掉关键结构片段。图5：F1、召回与稀疏性对比 (A) F1-score：TradePool在LogP/TPSA上优势明显。 (B) 召回率：KernelSHAP与PGMExplainer高召回但伴随过多正归因。 (C) 稀疏性：TradePool保持0.4–0.5的稀疏度，解释更集中。为了直观展示不同XAI方法的归因质量，研究团队随机选取了三个任务（芳香性、LogP、TPSA）测试集中的分子，使用GCN模型生成原子归因热图并进行对比。图11中，绿色高亮表示被预测为正归因的原子，每一行对应一个不同的任务。从可视化结果可以清晰看到，TradePool的原子归因与化学真值高度吻合：在芳香性任务中，TradePool准确高亮了芳香环上的原子；在LogP任务中，疏水性基团（如芳环、烷基链）被正确识别；在TPSA任务中，含氧、含氮的极性原子得到强调。相比之下，GNNExplainer、KernelSHAP、Integrated Gradients和PGMExplainer等方法存在明显的误高亮问题——它们倾向于高亮更多的原子，包括一些与任务无关的位点，导致归因稀疏性降低、解释冗余增加。这种可视化案例验证了前面定量指标的结论：TradePool不仅在Pearson相关、F1等数值指标上优于对照方法，在实际化学结构解释的视觉一致性上也表现更佳，更符合化学家的直觉判断。图11：不同XAI方法在GCN模型上的原子归因可视化对比每行对应芳香性、LogP和TPSA三个任务之一。绿色高亮表示被预测为正归因的原子。 TradePool的高亮区域与真值最吻合，误高亮最少；其他方法存在明显的过度归因或归因偏差。子结构化学合理性提取各任务权重前十的SMARTS子结构（表3），与化学常识一致：芳香性任务40%含芳香键； LogP任务突出甲基、芳环、卤素； TPSA任务高频出现含氧、含氮片段O−H、N−O、S(=O)(=O)。子结构权重跨随机种子保持一致（SI Table S6），N=N、C=S、N−S、O(:C)(:C)等始终位列前十，支持归因的可重复性。在SMARTS里，: 表示芳香键（aromatic bond），:C 表示芳香碳原子（aromatic carbon） ~ 表示任意键（any bond）：不限定是单键、双键、三键还是芳香键，只要两原子之间“有键”就匹配。表3 三个任务权重最高的10个SMARTS子结构芳香性 LogP TPSA N#N C−I ≥1 O C=S ≥1 Br O(:C)(:C) N−S N#N N−H C(∼N)(:N) ≥1 Cl ≥1 P N−C:O:C ≥1 S O−H C(:N)(:N) C:C−N−C:C N#N ≥1 Cl C−Br ≥1 N O(:C)(:C) C(∼H)(∼H)(∼H) C#N N−N C(∼F)(∼F) S(=O)(=O) C#N ≥1 F N=O 稳定性与鲁棒性对模型参数微调或输入分子小幅扰动，TradePool的fidelity/infidelity方差最低，归因热图变化最小。归因稳定性的原因：子结构集合固定、权重全局学习、低频子结构滤除减少噪声。对指纹掩码随机置零10%或对分子增加单键旋转等扰动，原子归因排名的Spearman相关仍高于0.85，而对照方法掉到0.5以下，说明结构微扰下解释更稳。在超参数网格搜索（学习率、隐藏维度、层数）中，TradePool的Pearson相关标准差小于0.03，显著优于对照，超参敏感性低。 Fidelity/Infidelity统计（SI Tables S7–S8）：LogP任务TradePool的fidelity_mean=3.38、infidelity_mean=0.69，明显优于其他方法；TPSA任务TradePool保持正向fidelity 36.18，而KernelSHAP虽fidelity高但infidelity为负且方差大，说明TradePool稳定性更高。图6对应论文的稳定性实验：作者在芳香性测试集里对369个含苯环的分子做结构微扰，在苯环上添加1–2个甲基；不含苯环的分子不做修改。随后用同一个预训练模型分别对加甲基前后分子计算原子归因，并比较每个分子的原子归因准确率变化量。结论：TradePool对结构小改动更稳。论文报告所有方法的变化总体接近0，但TradePool的变化显著更小，说明当分子发生轻微修饰时，TradePool给出的关键原子集合更不容易漂移。对于药物优化而言，这意味着解释可以跨相邻类似物复用，降低“每做一次修饰就要重新理解解释”的成本。为什么这能叫稳定：芳香性任务的真值关键原子主要是芳香环原子，给苯环加甲基不会改变原来的芳香原子标签。理想的解释应继续高亮芳香环，而不是被新增甲基带跑偏。图6：小扰动下的稳定性 (A) 在分子上随机添加1–2个甲基的示例。 (B) 各方法扰动前后原子归因值变化，TradePool波动最小，说明对结构微扰不敏感。图7是图6的可视化证据：同一批分子在加甲基前后的归因热图对比。这里的绿色代表被方法预测为正归因的原子，也就是它认为的关键原子。在芳香性任务里，这些原子理想情况下应与真实的芳香原子位置一致。结论1：TradePool的高亮区域更贴近化学真值且更一致。加甲基前后，TradePool主要持续高亮芳香环原子，新增甲基不会导致模型把大量非芳香原子误判为关键。结论2：部分对照方法会把几乎所有原子都判为芳香。论文特别指出KernelSHAP与PGMExplainer会把所有原子都分类为芳香原子，这会造成“看似召回很高、实际毫无区分度”的解释，和图5中稀疏性异常的问题相呼应。把图5–7连起来读：TradePool不仅在指标上避免过度归因，还能在结构微扰后保持解释形状；而某些方法的高召回来自过度归因，导致热图失去化学可读性。图7：扰动前后的原子热图对比绿色高亮：被判定为正归因的原子；每两行对应同一分子扰动前后。 TradePool在扰动后保持高亮区域一致性，对照方法出现更多误高亮。图8：跨随机种子的敏感性。五个随机种子训练的GCN模型在芳香性测试集的原子归因准确率箱线图；TradePool方差最小，鲁棒性最佳。图9：不同随机种子下的原子热图每行对应一个随机种子训练的模型，绿色为正归因原子。 TradePool跨种子保持高亮模式一致，对照方法高亮位置漂移更大。 Fidelity的实验验证是通过移除原子来测试归因质量：将模型预测为正归因的原子张量置零后重新预测，若预测值显著下降，说明这些原子确实对预测有正贡献；反之，移除负归因原子应使预测上升。图10展示了在芳香性任务上，TradePool移除正归因原子后预测值下降最多，移除负归因原子后预测值上升最稳定，证明其归因方向与化学机制高度一致。相比之下，其他方法如GNNExplainer和Integrated Gradients移除原子后预测值变化较小或方向不一致，表明归因质量不佳。纵轴：模型对芳香性任务的输出（预测的芳香原子数量），数值越大表示预测的芳香原子越多。横轴（1–4）与图例一一对应：1为真值，2为完整分子预测，3为仅保留关键原子后的预测，4为移除关键原子后的预测。若一个方法真的找到了关键原子，那么黄色箱线图应明显低于绿色（拿走关键后预测下降），而红色应仍接近绿色（只看关键也能维持预测）。图例解释：蓝色为真值分布；绿色为完整分子预测；红色表示把非关键原子特征置零后的预测；黄色表示把关键原子特征置零后的预测。图10：移除正/负归因原子后的预测值变化在芳香性任务上，移除不同XAI方法预测的正/负归因原子后，模型的预测值变化。 TradePool移除正归因原子后预测值下降幅度最大（KernelSHAP也还行？），移除负归因原子后预测值上升幅度最小且稳定，验证其归因方向正确。其他方法移除原子后预测值变化较小或方向不一致，说明归因与模型决策机制不匹配。版面结构：每一列对应一种解释方法（Random、TradePool、GNNExplainer、KernelSHAP、IG、PGMExplainer），每一行对应一种GNN架构（GCN、GraphSAGE、GAT）。箱线图显示分布范围，箱体中线为中位数，三角形为均值。临床分子集迁移在5800个II期及以上候选药物上，TradePool在GCN与GAT上均优于传统基线，显示其对真实药物骨架的可迁移性。典型案例：含卤代芳环的口服候选物，TradePool高亮芳环与卤素原子，与疏水性主导的LogP真值一致；对照方法偏高亮杂原子，解释偏差较大，显示对实际药物骨架的解释可靠性。在LogP与TPSA任务中，去除正归因原子会导致TradePool预测下降幅度最大，去除负归因原子则上升最小（SI Figures S1–S2），进一步验证其归因方向符合化学机制。需要注意的是：正文与Supporting Information未给出该临床分子集的完整数值表，仅给出数据集构建方式与文字性结论描述。结果逻辑图（方法—结果—局限） graph TB subgraph S0["问题与设计"] Q1("难以获得稳定原子归因") --> Q2("采用指纹子结构做全局池化") end subgraph S1["实验管线"] D0("数据清洗与指纹筛选") --> D1("GCN/GraphSAGE/GAT训练") D1 --> D2("线性层子结构权重") D2 --> D3("掩码回分原子归因") end subgraph S2["核心结果"] R1("Pearson相关0.93/0.63/0.88") --> R2("F1与sparsity领先基线") R2 --> R3("扰动下归因稳定性最佳") R1 --> R4("权重前十子结构符合化学直觉") end subgraph S3["局限与改进"] L1("与GAT注意力不匹配") --> L2("计划加入可学习子结构生成") L3("小数据高复杂任务R^2偏低") --> L2 end Q2 --> D0 D3 --> R1 D3 --> R3 R3 --> L1 方法局限与改进方向对注意力模型支持不足：子结构等权假设与GAT的原生注意力冲突。数据集较小（<3000）或任务复杂时，$R^2$偏低，子结构权重难以学到任务相关性。未来计划：在训练中加入“生成-筛选”子结构模块（类似GAN），替换低权重子结构，提升任务相关性与多样性。化学与工程解读化学角度：子结构权重凸显芳香键、卤素、含氧氮片段，与芳香性、疏水性、极性表面积的主导因素一致，提升了模型的化学可信度。工程角度：使用标准指纹可避免任务特定规则，部署时只需计算指纹与权重矩阵，无需逐分子重新训练，适合大规模虚拟筛选。 Q&A Q1：为什么用PubChem指纹而不是ECFP或规则切分？ A1：PubChem指纹是公开字典，881位覆盖常见官能团，跨分子可比；数量适中，便于全局权重学习；规则切分在多数分子下碎片数<10，统计显著性不足。 Q2：子结构权重如何转成原子归因？ A2：训练后从线性层取每个子结构的权重（GCN取和，GraphSAGE/GAT取L1范数），再用子结构-原子掩码，将包含该原子的所有子结构权重相加，即为该原子的归因值。 Q3：为什么对参数和分子扰动更稳？ A3：归因依赖全局训练得到的固定子结构权重，而非逐样本优化；子结构数量大、权重聚合降低单一掩码变化带来的波动；低频子结构被剔除减少噪声。 Q4：数据清洗如何保证标签一致性？ A4：使用RDKit与MolVS标准化SMILES、去盐和中和，重复分子按骨架去重；标签计算遵循Crippen原子贡献或拓扑表面积分拆，保证训练与真值口径一致。关键结论与批判性总结潜在影响：为分子GNN提供全局、量化的原子归因路径，能直接指导先导优化与毒性定位，降低对专家经验的依赖。局限性：与注意力类模型存在机制不匹配；小数据、高复杂任务下权重难学；对子结构词表的覆盖度仍依赖预定义指纹。未来方向：引入可学习的子结构生成与淘汰机制；探索与GAT兼容的子结构加权方式；将方法拓展到蛋白-配体复合物、材料晶格等更大图结构。小编锐评：做可解释性分析的一种尝试了。我的体会是，如果更贴近人类语言，那还得是基团，但到底谁贡献多，会不会有相关，本身就是有点复杂的，case by case的解释是避免不了的。现在这样有解释已经不错了。做可解释性分析可以水这么多图，学到了

Machine Learning & AI · 2026-01-11

分子片段语言模型遇见蒙特卡洛树搜索：Trio框架的可解释靶向分子设计

分子片段语言模型遇见蒙特卡洛树搜索：Trio框架的可解释靶向分子设计本文信息标题: Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search 作者: Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu 发表时间: 2025年12月18日单位: 深圳大学人工智能学院（中国）、诺丁汉大学宁波分校计算机科学学院（中国）、浙江大学药学院（中国）引用格式: Ji, J., Yang, Z., Xu, D., Bai, R., Li, J., Hou, T., & Zhu, Z. (2025). Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search. arXiv preprint arXiv:2512.09566v2. 源代码: https://github.com/SZU-ADDG/Trio 摘要药物发现是一个耗时且昂贵的过程，传统的高通量筛选和基于对接的虚拟筛选受限于低成功率和有限的可扩展性。尽管自回归、扩散和流模型等生成方法已经实现了超越枚举筛选的全新配体设计，但这些模型往往存在泛化能力不足、可解释性有限，以及过度强调结合亲和力而牺牲关键药理学性质的问题，从而限制了其转化应用。本文提出Trio框架，这是一个整合了基于片段的分子语言模型、强化学习和蒙特卡洛树搜索的分子生成框架，用于有效且可解释的闭环靶向分子设计。通过这三个关键组件，Trio实现了上下文感知的片段组装，确保物理化学性质和合成可行性，并在蛋白结合口袋内平衡探索新颖化学类型和利用有希望的中间体之间取得平衡。实验结果表明，Trio能够可靠地生成化学有效且药理学性质优越的配体，在结合亲和力提升7.85%、类药性提升11.10%和合成可及性提升12.05%的同时，将分子多样性扩展了4倍以上。核心结论 Trio框架整合了片段分子语言模型FRAGPT、直接偏好优化DPO和蒙特卡洛树搜索MCTS，实现了可解释的闭环靶向分子设计在5个蛋白靶点上，Trio生成的分子在结合亲和力、类药性QED和合成可及性SA三个维度上全面超越现有方法分子多样性相比基线方法提升4倍以上，有效拓展了可访问的化学空间通过可视化的搜索树轨迹，Trio提供了前所未有的分子优化过程透明度，使药物化学家能够理解和信任设计结果背景药物发现是一项极其复杂、昂贵且耗时的工程，通常需要超过十年的持续努力和大量财务投资才能将单一治疗候选药物转化为临床批准的药物。传统的高通量筛选方法虽然做出了重要贡献，但常常受限于低命中率、不断增加的实验成本以及对广阔化学空间的有限覆盖。基于对接的虚拟筛选提供了一种有前景的计算替代方案，能够快速优先排序先导化合物并识别新的治疗机会。然而，这些方法仍然受到高假阳性率和内在可扩展性瓶颈的阻碍，特别是随着化学库在规模和结构复杂性上呈指数级增长。近年来生成建模的进展代表了一种范式转变，提供了一种在特定任务优化约束下设计新型先导化合物的转型能力。自回归生成模型如Pocket2Mol、ResGen和FragGen能够直接从蛋白3D结构上下文中设计配体，但它们的严格顺序性质偏离了物理现实，累积的误差经常产生化学上不可信的结构。扩散和流模型如DiffBP、DiffSBDD和EquiFM通过同时生成所有原子来克服这些问题，但实验解析的蛋白-配体复合物的有限可用性继续阻碍模型训练，限制了其在实际药物发现应用中的泛化和鲁棒性。为了克服蛋白条件生成模型的泛化限制，研究人员越来越多地从语言模型中汲取灵感。分子结构可以用SMILES、SELFIES和SAFE等文本格式表达，使得超大规模化合物库能够作为分子语言模型的宝贵训练语料库。代表性工作包括BindGPT、3DSMILES-GPT和TamGen，它们通过大规模预训练和强化学习改善了泛化能力。然而，当前的分子语言模型仍然不足以实现精确的蛋白口袋靶向，辅助优化程序常常过度强调结合亲和力而牺牲类药性QED和合成可及性SA，从而限制了其在药物发现中的转化效用。关键科学问题泛化能力不足：现有的蛋白条件生成模型受限于蛋白-配体复合物数据的稀缺性，难以泛化到新的靶点和化学空间，限制了其在实际药物发现中的应用价值多目标优化失衡：当前方法往往过度关注结合亲和力的优化，而忽视了类药性、合成可及性等关键药理学性质，导致生成的分子难以进入后续的药物开发流程可解释性缺失：现有模型的黑箱特性使得药物化学家无法理解分子优化的路径，难以合理化或信任设计结果，从而制约了其在药物发现中的广泛应用化学空间探索受限：基于规则的搜索方法依赖于预定义的片段库和手工设计的连接规则，创造了复杂且低效的搜索过程，限制了可访问的化学空间创新点提出FRAGPT片段分子语言模型，使用基于BRICS算法的FragSeq表示，避免了SAFEGPT中数值连接标识符和环索引标记的句法复杂性，在1000万FragSeqs上预训练，实现了上下文感知的片段组装采用直接偏好优化DPO而非传统的强化学习PPO，将分子语言模型与QED和SA等关键分子性质对齐，避免了模式坍缩问题，实现了平滑的性质偏好整合将蒙特卡洛树搜索MCTS与DPO对齐的分子语言模型结合，利用上置信界UCB策略平衡探索和利用，通过亲和力、药代动力学和构效关系奖励引导片段组装轨迹，实现了可解释的闭环优化提供完整的搜索树可视化，使研究人员能够系统追踪候选分子的演化谱系，揭示特定官能团和片段组合如何逐步增强预测结合亲和力，为药物化学家提供了可操作的见解研究内容方法概览：Trio的三阶段流程 Trio框架的整体生成流程可以分为三个阶段。第一阶段，使用自监督学习训练一个分子语言模型用于下一个片段预测任务。第二阶段，采用强化学习对分子语言模型进行微调，实现定制化的分子性质对齐。第三阶段，利用蒙特卡洛树搜索和对齐后的分子语言模型在三维蛋白口袋中逐步生成分子。图1：Trio框架概览与动机 (a) 先前范式的局限性：基于序列的方法（SMILES模型）缺乏3D上下文和片段间语义；基于搜索的方法（GA/MCTS）依赖固定的片段库和手工规则，创造了复杂且缓慢的搜索过程；基于结构的生成器（2D/3D）需要稀缺的蛋白-配体对数据，且存在几何扭曲风险 (b) Trio流程：阶段1：预训练FRAGPT：在FragSeqs上训练的片段语言模型，学习上下文感知的连接方式，逐步组装有效分子阶段2：偏好对齐：使用QED/SA对进行DPO训练，使策略偏向可合成、类药性化合物阶段3：口袋条件规划：DPO对齐的策略驱动MCTS，通过UCB在选择-扩展-模拟-反向传播过程中，结合亲和力奖励对路径进行排序 graph TB Start["开始"] --> SG1["阶段1 FRAGPT预训练"] SG1 --> SG2["阶段2 DPO偏好对齐"] SG2 --> SG3["阶段3 MCTS靶向生成"] subgraph SG1["阶段1：分子语言模型"] direction LR D1["1000万FragSeqs 数据集"] --> M1["GPT架构 8730万参数"] M1 --> O1["输出：FRAGPT 片段预测模型"] end subgraph SG2["阶段2：性质对齐"] direction LR D2["10万DPO对 QED & SA偏好"] --> M2["直接偏好优化 避免模式坍缩"] M2 --> O2["输出：FRAGPT-DPO 类药性模型"] end subgraph SG3["阶段3：树搜索"] direction LR D3["蛋白口袋 3D结构"] --> M3["UCB策略 探索-利用平衡"] M3 --> O3["输出：高亲和力 类药性分子"] end 阶段1：FRAGPT片段分子语言模型 FRAGPT采用类GPT架构，专门用于预测分子片段的自回归模型。原始SMILES字符串需要被修改为基于片段的SMILES标记进行训练。片段化方法不仅保留了片段内部的语义信息，还明确捕获了片段之间的化学相互作用。具体而言，使用BRICS算法将分子从左到右分解为多个FragSeqs，定义了16种化学环境来灵活确定合适的键断裂位点和保留的官能团。 FRAGPT使用基于正则表达式模式的分词器，专门针对SMILES语法定制。生成的词汇表包含约600个唯一标记，不仅包括标准化学标记（如原子、键、分支和环符号），还包括所有必需的特殊标记，如[BOS]（序列开始）、[EOS]（序列结束）、[SEP]（片段标识符）和[PAD]（填充指示符）。模型架构包含8730万参数，采用标准的自注意力机制和前馈网络。训练目标是最小化模型预测的标记概率分布与目标标记真实分布之间的交叉熵损失。在1000万FragSeqs数据集上，使用6块NVIDIA A6000 GPU训练8个epoch，采用AdamW优化器（$\beta_1=0.9$, $\beta_2=0.95$），学习率调度策略结合了初始预热阶段和后续线性衰减，批量大小为每GPU 32个样本。图2：FRAGPT的全新生成和片段约束生成性能 (a) 两种基于片段的SMILES表示：SAFE使用索引原子（脆弱耦合）和位置数字（易出错编码），FragSeq使用独立片段（清晰的顺序流）和逐片段排序（有序且鲁棒） (b) 两种语言模型族：扩散模型使用随机采样，GPT使用逐步掩码预测 (c) 任务分类：Linker生成、Scaffold变形、Motif扩展、Scaffold装饰和Superstructure生成 Linker设计与Scaffold变形的本质区别：尽管两者在条件形式上相似（都需要同时满足起始和终止片段约束），但它们解决的化学问题截然不同。Linker设计LD专注于连接两个给定片段，生成的连接部分不能引入新的环系统，约束更为严格；而Scaffold变形SM则允许并鼓励通过添加新环来修改核心骨架结构，探索更广阔的化学空间。这种差异决定了LD适合优化已知骨架的连接方式，而SM适合探索新型骨架类型。 (d) 全新生成性能：FRAGPT仅用1%的SAFE数据集训练即达到或超越在完整语料库上训练的基线模型性能，展示了卓越的数据效率。FRAGPT的有效性、唯一性和多样性均接近100% (e) 片段约束生成的任务级性能：在LD（Linker设计）、SM（Scaffold变形）、ME（Motif扩展）、SD（Scaffold装饰）和SG（Superstructure生成）五个任务上，FRAGPT在有效性、唯一性、多样性和距离指标上均表现优异。即使在结构受限的Linker设计和Scaffold变形任务中，FRAGPT也展示了显著的生成多样性阶段2：DPO直接偏好优化 DPO是什么？ DPO（Direct Preference Optimization，直接偏好优化）是一种新型的模型对齐算法。传统的强化学习方法（如PPO）需要先训练一个独立的奖励模型来评价生成结果的好坏，然后再用这个奖励模型指导生成模型的优化。而DPO的核心创新是将生成模型本身视为奖励模型，直接从“好坏对比”数据中学习用户偏好，无需额外的奖励模型，既简化了训练流程，又避免了传统强化学习容易出现的模式坍塌问题（即输出过度集中到少数几个高分样本）。通俗理解：想象你在教一个厨师改进菜品。传统方法（PPO）需要先培养一个专业美食评委，让评委给每道菜打分（比如85分、92分），然后厨师根据这些分数调整做法。这种方法的问题是：培养评委很费时间，而且评委的标准可能不稳定，导致厨师只会做几道“刷分菜”。DPO的做法更直接：每次给厨师看两道菜，告诉他“这道更好吃，那道差一些”，让厨师自己琢磨为什么。这种“品尝对比”的学习方式更自然，厨师不会被绝对分数束缚，而是逐渐理解“什么样的菜更好”，做出的菜品既符合标准又保持多样性。在Trio框架中，DPO的作用是将FRAGPT从“能生成有效分子”提升到“生成类药性强、易合成的分子”。通过学习10万对“好分子vs坏分子”的对比数据，DPO让模型在保持生成多样性的同时，平滑地将分布向高QED（类药性）、低SA（易合成）的理想区域迁移。训练流程为了鼓励FRAGPT生成更合理的分子，采用DPO算法将模型平滑地对齐到更高的QED和更低的SA，而不是使用增强似然强化学习（会导致输出分布坍缩到期望性质的尖峰模式）。与需要训练辅助奖励模型的PPO不同，DPO将GPT策略本身视为奖励模型，这种设计在策略logits和奖励信号之间产生了显式映射，允许语言模型在没有额外批评器的情况下满足用户定义的偏好。具体流程拆解（对照原文Page 18）：生成候选分子池：让初始的FRAGPT模型（称为参考策略$\pi_{\text{ref}}$）生成约10万个FragSeqs。这些分子从各种起始片段出发延伸而成，结构各异，性质参差不齐制作“好坏对照表”：按照药物属性（QED类药性和SA合成难度）对每组分子排序，从排名的顶部和底部各抽取一个，组成“好分子-坏分子”配对。比如，同样从苯环片段出发，一个延伸成了QED高（类药性强）且SA低（易合成）的优质化合物，另一个延伸成了QED低且SA高的劣质结构，这就构成了一个训练样本对让模型学习偏好——“反复展示对比”的具体操作：不是人工展示：而是通过DPO损失函数$\mathcal{L}_{\text{DPO}}$自动优化模型参数具体机制：对于每一对好坏分子$(y_g, y_l)$，模型计算生成它们的概率$\pi_\theta(y_g x)$和$\pi_\theta(y_l x)$。优化目标是让生成好分子$y_g$的概率相对于初始模型上升，同时让生成坏分子$y_l$的概率相对于初始模型下降通俗理解：就像调整一个多选题答题策略——不需要知道正确答案得多少分，只需要知道“选A比选B好”，就能逐渐调整选择倾向。模型遍历10万对数据，每一对都贡献一个调整信号，最终学会在每个起始片段后优先选择那些导向高质量分子的token（片段）关键优势：不直接告诉模型QED和SA的具体数值（避免对绝对分数的过拟合），只提供相对偏好信号（这个比那个好），让模型保持生成多样性的同时整体向高质量区域迁移这样就构建了离线偏好数据集$\mathcal{D} = {(x^{(i)}, y^{(i)}g, y^{(i)}_l)}{i=1}^N$，其中$y^{(i)}_g$和$y^{(i)}_l$表示来自相同先验片段$x^{(i)}$但表现出更高和更低药物性质评分的FragSeqs。然后，最大化强化MLM $\pi_\theta$相对于参考策略$\pi_{\text{ref}}$的似然，优化目标为： \[\mathcal{L}_{\text{DPO}} = -\mathbb{E}_{(x,y_g,y_l)\sim\mathcal{D}}\log \sigma\left(\beta \log \frac{\pi_\theta(y_g|x)}{\pi_{\text{ref}}(y_g|x)} - \beta \log \frac{\pi_\theta(y_l|x)}{\pi_{\text{ref}}(y_l|x)}\right)\] 其中$\sigma$是sigmoid函数，$\beta$是缩放系数，调整训练期间增强偏好和保留原始分布之间的权衡。公式的通俗解释：这个损失函数看起来复杂，但核心思想很简单——让模型在生成好分子时变得更自信，在生成坏分子时变得更犹豫。概率比值 $\frac{\pi_\theta(y_g x)}{\pi_{\text{ref}}(y_g x)}$：表示“新模型生成好分子$y_g$的概率”相对于“旧模型生成好分子的概率”提升了多少倍。比如这个比值是2，说明新模型生成这个好分子的概率是旧模型的2倍好坏对比 $\beta \log \frac{\pi_\theta(y_g x)}{\pi_{\text{ref}}(y_g x)} - \beta \log \frac{\pi_\theta(y_l x)}{\pi_{\text{ref}}(y_l x)}$：前一项是“好分子概率提升”，后一项是“坏分子概率提升”，两者相减就是好分子相对于坏分子的优势有多大。我们希望这个差值越大越好，即好分子概率涨得快，坏分子概率涨得慢（甚至下降） sigmoid转换 $\sigma(\cdot)$：把差值转换成0到1之间的概率，表示“模型是否正确地更偏好好分子” 负号和期望 $-\mathbb{E}[\log \sigma(\cdot)]$：负号表示最小化负对数似然，等价于最大化模型“做出正确偏好选择”的概率。期望符号表示对所有10万对数据求平均简单来说：DPO通过这个损失函数，让模型在每次遇到选择时（比如从苯环出发，下一步加什么片段），逐渐提高选择导向好分子路径的概率，降低选择导向坏分子路径的概率，最终整体生成分布向高质量区域迁移。图3：跨基线数据和生成模型的化学空间比较表征 (a) 二维t-SNE投影——DPO如何改变生成分布 vanilla FRAGPT（蓝色）几乎完全覆盖了训练集DATASET（灰色）的分布范围，说明模型忠实地学习了训练数据的多样性，但也继承了训练集中的低质量分子 FRAGPT-DPO（红色）将分布集中到数据密集核心，像是给原来分散的点云“做了一次聚焦”，重点生成位于化学空间中心区域的高质量分子（对照图3b/c可知这些区域对应高QED、低SA）为什么“集中”是好事：这说明DPO成功地将生成重心从“覆盖全部训练集（包括边缘低质量区域）”转移到“聚焦高质量核心区域”，在保持化学多样性的同时显著提升了生成分子的平均质量 SAFEGPT由于其更大更多样的训练语料库，产生了几个在原始数据集中稀疏表示的高密度聚类，探索了更广阔的化学空间 (b) QED和SA分布的箱线图：vanilla FRAGPT紧密镜像训练集的联合QED-SA景观，SAFE在QED上有所改善但SA分布更广，FRAGPT-DPO显示QED明显上移和SA适度增加，伴随SA方差收缩 (c) QED-SA景观的六边形密度图：揭示了样本密度向化学理想区域的显著转移，有效消除了原始数据中存在的低质量长尾 (d) 生成分子亚结构的统计分析：顶部面板显示所有三个生成器紧密再现了原子类型、键类型和环大小分布的训练集统计。底部面板进一步揭示vanilla FRAGPT保留了所有三个描述符的相似频率，包括低频卤素（I, Br, Cl）和大环。FRAGPT-DPO放弃了化学不利的基序，从而相对于数据集改善了类药性和合成可及性小编锐评：每次看到这些指标看起来都差不多，就觉得守着这么点数据卷AI模型实在没有意思……而且generation本身是个工程问题（不去挖底层物理化学规律就不是科学问题），没有用在制药公司的话实在是电子游戏……实践是检验真理的唯一标准，没有人知道新颖的化学空间是不是对的，拿这个来评价就很难评。侯老师工作里面的QED、SA这些真的是重要的指标啊，才是应该发扬光大的，但是吧，好像也没明显提升，本来就是符合一定标准就行了…… 阶段3：MCTS蒙特卡洛树搜索 Trio将对齐后的FRAGPT-DPO与MCTS算法结合，用于复杂的靶向分子设计。这种混合方法利用MCTS在平衡探索和利用方面的优势，促进了具有增强结合亲和力的更多样化分子生成。该算法包括四个典型阶段：选择、扩展、模拟和反向传播。 MCTS的通俗理解：想象你在一个巨大的化学迷宫中寻找最好的分子，每个岔路口代表“添加哪个片段”的选择。MCTS就像一个聪明的探险家，采用“边探索边记录，择优深入”的策略：探索vs利用的困境：是继续尝试新路线（探索），还是深挖已知的好路线（利用）？太保守会错过更好的分子，太冒险会浪费计算资源 MCTS的解决方案：用一棵搜索树记录所有尝试过的路径和它们的奖励（对接分数、QED、SA），每次迭代都基于历史经验做出更明智的选择，逐渐将搜索重心转向最有希望的区域四个阶段的循环：选择（沿着最有潜力的路径向下走）→ 扩展（在叶节点添加新片段）→ 模拟（快速试探这条路能走多远）→ 反向传播（把结果反馈给路径上的所有节点）。这个循环重复数千次，树逐渐生长，好路径被反复加强，差路径被逐渐放弃 graph TB Start["初始化 根节点[BOS]"] --> Loop["开始MCTS迭代"] Loop --> S1 subgraph S1["1.选择阶段Selection"] direction LR Sel1["从根节点出发"] --> Sel2["计算所有子节点的 UCT值"] Sel2 --> Sel3["选择UCT最大的 子节点前进"] Sel3 --> Sel4["重复直到 到达叶节点"] end S1 --> S2 subgraph S2["2.扩展阶段Expansion"] direction LR Exp1["调用FRAGPT-DPO"] --> Exp2["输入：父节点的 部分SMILES序列"] Exp2 --> Exp3["输出：下一个 片段Fragment"] Exp3 --> Exp4["去重检测 避免重复结构"] Exp4 --> Exp5["创建新子节点 添加到搜索树"] end S2 --> S3 subgraph S3["3.模拟阶段Simulation"] direction LR Sim1["从当前节点出发"] --> Sim2["FRAGPT快速rollout 生成至[EOS]"] Sim2 --> Sim3["得到完整分子 SMILES序列"] Sim3 --> Sim4["AutoDock Vina 对接到蛋白口袋"] Sim4 --> Sim5["计算奖励R 对接分数+QED+SA"] end S3 --> S4 subgraph S4["4.反向传播阶段Backpropagation"] direction LR Back1["从叶节点向上 回溯到根节点"] --> Back2["更新访问次数 Nj ← Nj + 1"] Back2 --> Back3["累积奖励 Qj ← Qj + R"] Back3 --> Back4["强化高奖励路径 抑制低奖励分支"] end S4 --> Check{"是否达到 迭代次数上限？"} Check -->|"否 继续探索"| Loop Check -->|"是 搜索完成"| Output["输出奖励最高的 完整分子"] 选择阶段：在化学决策树中导航采用修改的上置信界UCT准则来选择具有高潜在奖励的子节点，同时保持探索的多样性。子节点$j$的UCT值公式为： \[\text{UCT}_j = \alpha \times \text{average}(a_j) + (1-\alpha) \times \text{max}(a_j) + C\sqrt{\frac{\ln N_C}{N_j}}\] 其中$\text{average}(a_j)$和$\text{max}(a_j)$分别表示动作$a_j$的平均和最大奖励，$\alpha$操纵历史性能$\text{average}(a_j)$和乐观潜力$\text{max}(a_j)$之间的权衡，$C$通过缩放来自UCT框架的第二项来表示探索-利用平衡，$N_C$是父节点的总访问计数，$N_j$是节点$j$的访问计数。通俗解释——如何选择下一步走哪条路：从根节点（[BOS]标记或初始片段）开始，算法需要决定往哪个子节点（添加哪个片段）前进。UCT公式就像一个“路径评分系统”，综合考虑三个因素：第一项：$\alpha \times \text{average}(a_j)$——历史平均表现。这条路之前走过多次，平均奖励如何？就像餐厅的平均评分，反映稳定性第二项：$(1-\alpha) \times \text{max}(a_j)$——最佳潜力。这条路曾经出现过的最高奖励是多少？反映乐观潜力，也许只是运气好，但值得再试试第三项：$C\sqrt{\frac{\ln N_C}{N_j}}$——探索奖励。这条路被访问的次数$N_j$越少，这一项越大，鼓励尝试冷门路线。$\ln N_C$确保总体探索随迭代次数对数增长，避免过度探索简单来说：选择UCT值最高的子节点前进。一开始，未探索的路径因为探索奖励高而被优先尝试；随着迭代进行，高奖励的路径逐渐脱颖而出，搜索重心向它们倾斜，但仍保留一定概率探索新路径。扩展阶段：生成下一个分子片段在选择叶节点后，FRAGPT作为代理生成SMILES序列的后续片段。扩展阶段包含重复检测机制，计算当前节点与其兄弟节点之间的分子相似性，扩展重复最多5次直到获得结构不同的分子，从而增强候选物的多样性和优化过程的整体效率。 FRAGPT的输入输出机制（对照原文Page 20）：输入是什么：父节点存储的部分SMILES序列（当前已构建的分子片段序列）。例如，父节点可能是[BOS][SEP]c1ccccc1[SEP]（从[BOS]开始，已添加苯环片段） FRAGPT做什么：作为自回归语言模型，FRAGPT根据这个“前文”（部分序列）预测“下一个token”（下一个片段应该是什么）。这正是GPT架构的核心能力——给定前文，预测下一个词（这里是片段）输出是什么：一个新的片段（Fragment），而不是完整分子。例如输出CC(=O)[SEP]（乙酰基片段）如何使用：将新片段追加到父节点的SMILES字符串后面，形成新的部分序列[BOS][SEP]c1ccccc1[SEP]CC(=O)[SEP]，作为新子节点存储在树中关键区别：扩展阶段：只生成一个片段，在树上添加一个子节点，逐步构建分子模拟阶段（下一步）：从当前节点出发，一口气生成到[EOS]结束，得到完整分子用于评分通俗解释：到达叶节点后，检查它是否已经是完整分子（包含[EOS]结束标记）。如果还没结束，就调用FRAGPT-DPO模型读取父节点的部分SMILES，预测并添加下一个片段，在树上创建新分支。为了避免生成重复的分子浪费计算，会检查新分子与兄弟节点的相似性，如果太相似就重新生成，最多尝试5次。这就像在迷宫的岔路口开辟一条新路，但要确保不是走回头路。模拟阶段：快速试探长期潜力通过执行蒙特卡洛rollout直到到达终端状态（[EOS]）来评估新扩展节点的长期潜力。在rollout过程中，FRAGPT生成基于当前节点状态的完整SMILES序列并重建相应的分子，近似当前扩展节点的潜在分子状态以供后续评估。生成的分子使用领域特定的奖励函数$R(\cdot)$进行评分，量化期望的性质，如合成可及性SA、类药性定量估计QED和靶特异性生物活动（如对接分数）。这里回答一个重要问题：FRAGPT本身不需要蛋白结构信息作为输入！蛋白信息通过实时对接评估间接使用： FRAGPT的角色：只负责生成化学上合理的分子序列，基于预训练的SMILES语言模型，不涉及蛋白结构蛋白信息的引入：在模拟阶段，生成完整分子后，使用AutoDock Vina将分子对接到目标蛋白口袋，得到对接分数奖励函数设计：$R(\cdot)$综合多个评分：对接分数（结合亲和力）+ QED（类药性）+ SA（合成可及性）闭环优化：奖励反馈给MCTS → 更新节点统计 → 指导后续片段选择 → 逐渐向高亲和力分子收敛这种“实时对接评估指导搜索”的方式（原文称为“real-time docking evaluations”），使得MCTS能够在不直接使用蛋白结构作为模型输入的情况下，仍然实现靶向分子设计。图5b的结合模式（疏水、氢键、π-π堆积）是基于Vina对接得到的最优结合构象进行的相互作用分析。通俗解释：扩展阶段只添加了一个片段，但我们想知道“如果沿着这条路一直走下去，最终能得到什么样的分子？”模拟阶段就是快速试探：让FRAGPT从当前片段出发，一口气生成到分子完成（[EOS]），然后用Vina对接到蛋白口袋，计算这个完整分子的奖励（对接分数、QED、SA的加权组合）。这就像下围棋时的“快速模拟对局”——不需要精确计算每一步，只需要快速跑到终局，看看大概能赢多少。这个奖励就是这条路径的“潜力评估”。反向传播阶段：更新路径统计信息将模拟获得的最终奖励$R$向后传播通过树以更新所有遍历节点的统计信息。每个节点的访问计数$N_j$和累积奖励$Q_j$递增：$N_j \leftarrow N_j + 1$，$Q_j \leftarrow Q_j + R$。这种更新机制使算法能够随时间积累经验，强化一致导致高奖励结果的节点，同时逐渐阻止次优分支的探索。通俗解释：模拟得到了奖励分数，现在要把这个信息反馈给这条路径上的所有节点。从叶节点一路向上回溯到根节点，每个经过的节点都更新两个统计量：访问次数$N_j$加1（记录这条路又走了一遍），累积奖励$Q_j$加上这次的奖励$R$（积累经验）。这样，下次再选择时，UCT公式就能利用这些更新后的统计信息做出更明智的决策。高奖励的路径会被标记为“有潜力”，低奖励的路径会被逐渐冷落，实现“强者愈强”的良性循环。四阶段循环总结：这四个阶段构成一个完整的迭代循环，重复数千次（如5000次模拟）。每次循环都让搜索树变得更聪明一点，最终收敛到高质量分子集中的区域。图5a展示了一个实际的搜索树示例，从[BOS]开始，经过5层片段添加，最终找到对接分数最优的候选分子（标注皇冠图标）。靶向分子生成的性能评估在5个成熟的蛋白靶点（parp1, fa7, 5ht1b, braf, jak2）上进行了全面评估。主要评估指标是top-hit 5%分数，定义为前5%独特且新颖生成hits的平均对接分数DS。新颖hits的定义采用三个严格标准：DS < 活性分子的中位DS、QED > 0.5、SA < 5.0。每个蛋白靶点生成3000个候选分子，与最先进的基线生成器进行基准测试。基线方法包括四个方法学家族：基于片段的方法（JT-VAE、HierVAE、MARS、RationaleRL、FREED、PSVAE、f-RAG和GEAM），遗传算法变体（Graph GA、GEGL和Genetic GFN），强化学习基线（REINVENT和MORLD），以及扩散模型（MOOD）。靶点 f-RAG GEAM Trio* Trio parp1 -12.945 -12.891 -13.129 -12.730 fa7 -9.899 -9.890 -10.359 -10.132 5ht1b -12.670 -12.374 -12.954 -12.669 braf -12.390 -12.342 -12.591 -12.389 jak2 -11.842 -11.816 -11.855 -11.806 表1：5个蛋白靶点上的对接性能定量比较（展示最佳baseline方法）表格说明：评价指标：AutoDock Vina对接分数（单位：kcal/mol），数值越负越好（表示结合越紧密）方法选择：表中展示了近期SOTA方法f-RAG和GEAM（两者在原文完整表格的15个方法中表现最佳），以及本文的Trio*和完整Trio 完整对比：原文Table 1包含15个baseline方法（涵盖基于片段、遗传算法、强化学习和扩散模型四大类），Trio*在所有5个靶点上均实现最佳结合亲和力，超越所有基线加粗规则：每个靶点的最优值用粗体标注。5ht1b、braf和jak2三个靶点上，完整Trio与f-RAG的差距在0.001-0.002 kcal/mol范围内，几乎持平核心发现：基础Trio*模型（无DPO约束）在5个靶点上均实现了最佳结合亲和力，平均对接分数为-12.169 kcal/mol，超越所有基线方法。这证明了将片段语言模型与引导树搜索结合的有效性。完整的Trio框架将FRAGPT-DPO与MCTS集成，创建了类药分子搜索的整体解决方案。与仅关注探索的Trio*不同，完整Trio模型不仅优化结合亲和力，而是导航多目标景观以优先考虑类药性和合成可及性。完整Trio在5个靶点上的平均对接分数为-12.389 kcal/mol，虽然略低于Trio*，但在QED和SA上表现更优（见图4a），实现了亲和力、类药性和合成可及性的三维平衡。图4：5个治疗靶点上的性能和多样性分析 (a) 箱线图比较：对比GEAM、Trio*和Trio生成分子的Vina对接分数（上）、QED（中）和SA（下）分布。虽然Trio*表现出最极端的DS分布，完整Trio模型在QED和SA上实现了优越且紧密聚类的值，由偏好对齐驱动，为实际药物发现提供了最佳平衡 (b) 超参数敏感性分析：显示搜索步数（上）和搜索宽度（下）对20次独立运行的平均Vina对接分数的影响。对接分数通常随着模拟计数的增加而改善，而扩展树宽度增强探索但对对接性能没有统计学显著增益 (c) 分子多样性分析：使用#Circles指标量化多样性，计算从3000个生成集中可以选择的最大分子数，使得每对选定分子超过最小距离阈值（Morgan-Tanimoto相似性>0.75）。Trio*模型在所有5个蛋白靶点上展示了显著的多倍改进，Trio模型相对于Trio*有预期的适度减少，但其#Circles计数仍优于早期方法为了减轻由近乎相同分子簇引起的夸大性能，对GEAM、Trio*和Trio每个靶点生成的3000个分子进行了去冗余处理，计算Morgan-Tanimoto相似性系数以丢弃相似性大于0.4的任何对。由于GEAM在有限的ZINC250K数据库内优化，近一半的分子被移除。相比之下，即使在移除结构冗余对后，Trio*和Trio都保留了超过70%的生成候选物，突显了其生成广度。可解释性：搜索树可视化与结合模式分析为什么可解释性对药物发现至关重要：当前生成模型的黑箱特性是其在药物发现中广泛应用的根本障碍。传统的微调方法（fine-tuning）虽然能优化分子性质，但可解释性受限于黑箱神经网络权重——研究人员无法理解模型为什么生成某个分子，也无法追踪分子优化的路径，导致药物化学家难以合理化或信任设计结果。 Trio的可解释性优势（对照原文Page 5）：相比传统微调方法，Trio通过片段级搜索显著增强了可解释性：透明的优化轨迹：MCTS的搜索树明确记录了每一步添加了什么片段、为什么选择这个片段（UCT值）、这个选择带来了多少奖励提升。分子优化的整个过程完全可追溯战略决策过程可视化：片段级的逐步组装透明地反映了算法的战略决策——哪些片段组合被优先探索、哪些路径被放弃、最终的优化分子经历了怎样的演化灵活的目标调整：可以通过简单地改变奖励函数来调整搜索目标（如增加ADMET性质权重），而无需重新微调模型，避免了微调方法的计算开销人在环中的工作流程：研究人员可以在搜索过程中介入，基于化学直觉修剪不合理的分支或引导探索方向，实现AI与专家知识的协同双重可解释性设计： Trio提供了两个层次的可解释性：（1）搜索树可视化——展示分子是如何一步步构建出来的；（2）结合模式分析——解释为什么这个分子能与靶蛋白紧密结合。图5：Trio框架逐步生成机制和生成配体与靶蛋白结合口袋之间分子间相互作用的示意 (a) 基于靶标的全新生成的蒙特卡洛树搜索示意图：从[BOS]根标记开始，通过迭代片段添加（第1-5层）构建分子，并由AutoDock Vina分数优先排序以识别最佳候选物（皇冠图标）。完整搜索树的可视化提供了从头分子设计中罕见的可解释性水平，使研究人员能够系统地追踪候选分子的演化谱系，揭示特定官能团和片段组合如何逐步增强预测结合亲和力。这种颗粒级透明度超越了仅呈现最终优化化合物，提供了可操作的见解，实现更理性的、人在环中的工作流程 (b) 生成的先导物对靶蛋白的预测结合模式：5ht1b、braf、fa7、jak2和parp1结合口袋的详细视图突出了关键的非共价相互作用。接触用颜色编码：疏水（暖粉色虚线）、氢键（森林绿色实线）和$\pi-\pi$堆积（青色虚线）。相互作用分析揭示这些化合物实现了异常有利的预测结合自由能，并参与关键的非共价相互作用。表格展示Trio生成配体的Vina分数大幅超越参考化合物，平均提升46.0% Q&A Q1: 为什么Trio*在结合亲和力上优于完整Trio，但在实际应用中推荐使用完整Trio？ A1: Trio*（无DPO约束）专注于最大化对接分数，采用无约束的探索策略实现了最佳结合亲和力。然而，这种单一目标优化常常以牺牲类药性QED和合成可及性SA为代价。完整Trio通过DPO将生成过程与多个药理学性质对齐，在三个维度（结合亲和力、QED、SA）上实现了优越的平衡。从药物开发的实际角度，一个具有略低对接分数但可合成且类药的分子，远比一个难以合成或具有不良ADMET性质的高亲和力分子更有价值。Trio的设计理念是在效力和可及性之间取得和谐，这对于转化研究至关重要。 Q2: FRAGPT相比SAFEGPT的核心优势是什么？为什么FragSeq表示更优？ A2: SAFEGPT依赖于位置数值标记进行片段连接，这些数字干扰了规范环闭合表示法，并随着片段数量的增加提升了句法歧义。具体而言：句法复杂性：SAFE中的数值连接符（如“9”）会与SMILES中的环索引冲突，导致解析错误错误累积：数字标记的误预测会级联传播，破坏整个分子的有效性语义分离性差：片段之间的连接信息与片段内部化学语义混杂在一起相比之下，FragSeq通过结构化片段语法将连接语义与环索引解耦，每个片段用[SEP]标记分隔，保持了独立性和语义完整性。实验结果显示，FRAGPT仅用1%的数据即达到SAFEGPT的性能，且有效性接近100%，而SAFEGPT的有效性明显较低，证明了FragSeq表示的优越性。 Q3: MCTS的children-adaptive策略如何动态调整搜索广度？为什么这对分子生成重要？ A3: children-adaptive策略通过重要性度量$I(s_t) = \max_{o_i^t} R(s_t, o_i^t) - \bar{R}(s_t) $动态调整节点的分支因子，其中$R(s_t, o_i^t)$是第$i$个子节点的奖励，$\bar{R}(s_t)$是所有子节点的平均奖励。高$I(s_t)$表示子节点间奖励偏差显著，促使算法将子节点数扩展到$n(s_t) = \min(\beta\lfloor I(s_t)\rfloor, c_{\max})$，其中$\beta$控制扩展率，$c_{\max}$施加上限以防止计算过载。这种机制确保奖励分布波动的节点需要更深入的探索，增强发现高奖励分子候选物的可能性。在分子生成中，这意味着当某个片段添加后出现多种可能的优化方向（奖励分散）时，搜索树会自动增加分支，避免过早收敛到局部最优。相反，当奖励分布稳定时，树会减少分支以提高效率。这种自适应机制是Trio能够同时实现高质量和高多样性的关键因素之一。关键结论与批判性总结潜在影响 Trio建立了一个可解释、可扩展的分子设计框架，通过搜索树可视化提供了前所未有的透明度，使药物化学家能够理解和信任AI生成的分子，促进了生成模型与专家驱动药物发现之间的人在环中工作流程通过整合上下文感知片段建模、性质约束强化学习和原则性组合搜索，Trio实现了泛化、可信性和可解释性的统一，为自主闭环发现系统奠定了基础，代表了AI驱动药物发现范式的转变在5个不同靶点上的一致性优势（无论受体类型或结构复杂性）表明，MLM与树搜索的结合稳健地泛化到不同生物学上下文，规避了纯数据驱动或规则约束方法中常见的靶点可转移性问题分子多样性相比基线方法提升4倍以上，表明Trio克服了静态片段库的限制，能够探索远离训练分布的新颖化学空间，为发现新型骨架提供了可能局限性蛋白-配体数据的泛化挑战：尽管Trio通过大规模化学语料库预训练在一定程度上克服了实验解析蛋白-配体复合物数据的稀缺问题，但特定靶点的结构数据仍然有限，可能影响模型在全新靶点家族上的泛化性能和鲁棒性性质优化范围有限：DPO当前仅对齐QED和SA两个性质，未考虑更广泛的ADMET性质（如溶解度、代谢稳定性、血脑屏障渗透性、hERG毒性等），这些是候选化合物从计算设计推进到临床试验的关键药代动力学瓶颈未来研究方向根据原文Conclusion部分（Page 16）提出的展望，Trio框架可以在以下三个方向进行扩展，以进一步提升其应对难治性生物学靶点的能力：逆合成推理整合：将逆合成分析嵌入到MCTS的奖励函数中，使生成的分子不仅满足合成可及性指标SA，而且具有明确的、经济可行的逐步合成路线，进一步缩小计算设计与实验验证之间的差距更复杂的ADMET导向奖励函数：扩展性质对齐框架以整合预测的溶解度、代谢稳定性、毒性等多维ADMET性质，实现更全面的药理学优化，提升候选分子的临床转化潜力和药物开发成功率扩展片段词汇表：整合RECAP、MMPA等其他片段化策略，或通过无监督学习自动发现新型片段类型，进一步拓展可访问的化学空间，增强对非传统靶点（如蛋白-蛋白相互作用、RNA靶点等）的适用性

Machine Learning & AI · 2026-01-01

ADSeqGAN：辅助判别器增强的小样本分子生成框架

ADSeqGAN：辅助判别器增强的小样本分子生成框架本文信息标题: Auxiliary Discriminator Sequence Generative Adversarial Networks for Few Sample Molecule Generation 作者: Haocheng Tang, Jing Long, Beihong Ji, Junmei Wang 发表时间: 2025年9月单位: University of Pittsburgh (美国匹兹堡大学) 引用格式: Tang, H., Long, J., Ji, B., & Wang, J. (2025). Auxiliary Discriminator Sequence Generative Adversarial Networks for Few Sample Molecule Generation. Journal of Chemical Information and Modeling, 65(24), 10311-10322. https://doi.org/10.1021/acs.jcim.5c01737 GitHub代码库: https://github.com/allowbreak.com/ClickFF/ADSeqGAN 和 https://github.com/HaCTang/ADSeqGAN SeqGAN原始论文 WGAN-GP原始论文摘要本文提出了辅助判别器序列生成对抗网络（ADSeqGAN），一种针对小样本数据集的新型分子生成方法。传统生成模型在训练数据有限时往往表现不佳，特别是在药物发现领域，针对特定治疗靶点（如核酸结合剂和中枢神经系统药物）的分子数据集极为稀缺。ADSeqGAN通过将预训练的随机森林分类器作为辅助判别器整合到GAN框架中，显著提升了分子生成质量和类别特异性。该方法结合了预训练生成器和Wasserstein距离，增强了训练稳定性和多样性。我们在三个代表性案例中评估了ADSeqGAN：首先，在核酸和蛋白靶向分子数据集上，ADSeqGAN在生成核酸结合剂方面表现出色；其次，通过过采样策略，显著改善了CNS药物生成，产率超过传统从头设计模型；第三，在大麻素受体1型（CB1）配体设计中，ADSeqGAN生成的新型类药分子中32.8%被预测为活性化合物，优于CB1专用库和通用库。总体而言，ADSeqGAN为数据稀缺场景下的分子设计提供了一个通用框架。核心结论 ADSeqGAN整合随机森林辅助判别器，显著提升小样本场景下的分子生成质量在核酸结合剂生成任务中，验证SMILES率和产率均超过基线模型通过少数类过采样策略，CNS药物生成率提升明显，同时保持多样性 CB1配体设计中，预测活性化合物比例达32.8%，优于专用和通用化合物库证明了迁移学习和数据增强在小样本分子生成中的有效性背景分子生成是现代计算药物发现的基石，为设计具有期望性质的新型化合物提供了创新途径。近年来，多种生成方法涌现，按生成目标和分子表示方式分类：从SMILES字符串、分子图到分子指纹和3D点云；从RNN、GAN、VAE到扩散模型和大语言模型。在所有分子表示中，SMILES符号因其简洁性、数据库广泛可用性和工具支持而脱颖而出。其序列表示使其特别适合自然语言处理（NLP）技术，进一步降低了计算和存储成本。这使得基于SMILES的方法在通过分子性质引导化合物空间扩展方面具有显著优势。 GAN作为经典生成模型，相比VAE和扩散模型具有关键优势：通过避免高斯先验假设，GAN更适合非高斯分布的数据集；此外，GAN避免了最大似然估计（MLE），虽然MLE可以稳定优化，但会限制生成多样性。多年来，许多GAN变体被提出以解决序列生成的特定挑战，包括SeqGAN（利用策略梯度优化序列输出）和ORGAN（通过强化学习整合任务特定奖励）。然而，小样本学习仍是分子生成的核心挑战。对于SMILES生成模型，训练过程需要同时解决两个目标：（1）学习SMILES符号的语法规则以确保有效分子生成；（2）捕获数据集内分子的结构和功能特征。实现这些目标通常需要大量数据和精心调整的网络参数。但在药物发现中，针对特定治疗靶点的高质量数据集极为稀缺，如核酸结合剂和CNS药物。关键科学问题本文旨在解决以下核心问题：小样本分子生成：如何在数据极度稀缺（如仅有几百个样本）的情况下，生成高质量、类别特异的分子？类别不平衡：如何处理极度偏斜的数据集（如CNS药物仅占1-2%），在生成多数类分子的同时，确保少数类的充分代表性？迁移学习应用：如何利用相关但不完全匹配的辅助数据集（如蛋白结合剂辅助核酸结合剂生成）提升模型性能？判别器设计：如何设计更符合化学直觉的判别器，整合分子描述符等先验知识？创新点辅助判别器架构：首次将预训练的随机森林分类器作为辅助判别器整合到序列生成GAN中，利用分子描述符提供的先验知识混合数据集训练：提出在相关辅助类别（如蛋白结合剂）上训练，生成目标类别（核酸结合剂）分子的策略少数类过采样：针对极度不平衡数据集，创新性地采用过采样策略增强少数类表示多重奖励机制：设计对抗奖励和辅助奖励的线性组合，引入长度加权和重复惩罚系统验证：在核酸结合剂、CNS药物、CB1配体三个代表性场景中全面验证方法的通用性研究内容 ADSeqGAN模型架构图1：ADSeqGAN工作流程 Build Dataset：数据集包含类别标签（至少2个不同分子类别）和SMILES字符串 Pretrain Discriminators：使用RDKit/OpenBabel计算分子描述符或指纹，选择具有强分辨力的描述符构建分类器，添加结构限制获得预训练判别器D Train ADSeqGAN：生成器G输入带标签的起始token，通过强化学习生成不同类别的合成数据。主判别器（CNN）区分真实与生成样本，预训练判别器进行分类。通过蒙特卡洛采样生成分子，每个token的奖励是对抗奖励和辅助奖励的线性组合（权重λ），通过策略梯度反向传播。引入长度加权和重复惩罚提升质量核心算法设计辅助判别器目标函数对于每个辅助判别器$D_n$，优化函数为： \[\min_{G} V(D_n, G) = \mathbb{E}_{Y|c \sim p_{\text{data}}(Y|c)} [\log D_n(Y|c)]\] 其中： $D_n(Y) = a_c C_n(Y) + b_c$ $C_n$：分类器函数 $a_c, b_c$：基于先验知识的结构限制这个公式让辅助判别器成为“类别专家”：它通过随机森林分类器$C_n$对生成的分子进行评分，$a_c$和$b_c$是根据化学知识设定的结构限制（如分子量范围、亲脂性等）。通过最小化该目标函数，生成器学会生成能被正确分类的、符合目标类别特征的分子。这就像是让学生不仅要会做题，还要理解题目背后的知识点分类。总体训练目标 \[\min_{G} \max_{D_{adv}} V(D_{adv}, \{D_n\}_{n=1}^{N}, G)\] \[V = \mathbb{E}_{Y \sim p_{\text{data}}(Y)} [\log D_{adv}(Y)] + \mathbb{E}_{Y \sim p_G(Y)} [\log(1 - D_{adv}(Y))] + \sum_{n=1}^{N} \lambda_n V(D_n, G)\] 其中$\lambda_n$控制辅助判别器的权重。这是ADSeqGAN的“综合评分体系”：包含三个部分的平衡。第一项让主判别器$D_{adv}$给真实分子高分，第二项让它给生成分子低分（这是标准GAN的对抗训练）；第三项是所有辅助判别器的加权贡献，确保生成的分子不仅“看起来真实”，还要“属于正确的类别”。通过调整权重$\lambda_n$，我们可以控制模型是更注重真实性还是类别特异性。这就像是评价一幅画作：既要画得逼真（对抗目标），又要符合特定画派风格（辅助目标）。策略梯度与奖励设计生成器通过策略梯度更新： \[\nabla_\theta J(\theta) = \mathbb{E}_{Y \sim p_\theta} [R(Y) \nabla_\theta \log p_\theta(Y)]\] 策略梯度就像机器学习中的“方向指引”：告诉生成器参数该如何调整才能产生更高质量的分子。如果某个token选择得到了高奖励，梯度就会让模型更倾向于未来做出同样的选择。总奖励为对抗奖励和辅助奖励的加权和： \[R_{\text{total}}(Y) = \lambda R_{\text{adv}}(Y) + (1 - \lambda) R_{\text{aux}}(Y)\] 奖励增强机制：长度加权：惩罚过长或过短的SMILES $w_{\text{length}} = \exp\left(-\frac{(L - L_{\text{target}})^2}{2\sigma^2}\right)$ 这个公式就像“分子大小调温器”：长度接近目标得高分，过长过短都减分。$\sigma$参数控制容差范围。重复惩罚：检测并惩罚重复的子结构模式训练策略优化 1. 生成器预训练采用最大似然估计（MLE）在真实SMILES数据上预训练生成器，学习基本的SMILES语法规则： \[L_{\text{MLE}} = -\mathbb{E}_{Y \sim p_\theta} [\log p_\theta(Y)]\] 这个公式让模型“模仿真实分子”：通过最大化真实SMILES序列的概率，模型学习化学语言的基本规则。 2. Wasserstein距离采用Wasserstein GAN（WGAN）目标函数提升训练稳定性： \[W(p_{\text{data}}, p_G) = \sup_{\|D\|_L \leq 1} \left[ \mathbb{E}_{Y \sim p_{\text{data}}} [D(Y)] - \mathbb{E}_{Y \sim p_G} [D(Y)] \right]\] Wasserstein距离就像“搬运成本”：计算把真实分布“搬运”到生成分布的最小成本。通过最大化这个成本差，判别器能更好地区分真假数据，避免传统GAN的梯度消失问题。使用gradient penalty强制Lipschitz约束。 3. 过采样策略对于极度不平衡数据集（如CNS药物占比<2%）：对少数类样本进行过采样（重复采样）在混合数据集上训练模型生成时指定少数类标签引导生成案例一：核酸与蛋白结合剂生成数据集：核酸结合剂（NA binders）：约600个样本（少数类）蛋白结合剂（Protein binders）：约6000个样本（多数类，辅助数据）实验设置：对比模型：仅在NA数据集上训练的SeqGAN和ORGAN ADSeqGAN：在NA+Protein混合数据集上训练，辅助判别器基于分子描述符图2：ADSeqGAN在核酸和蛋白数据集上的训练结果图2A：NA产率随训练轮数的变化。输入”NA”标签时NA产率显著增加，输入”Pro”标签时显著降低，证明模型对标签具有强响应能力。产率 = unique_ratio × verified_ratio × NA_ratio 图2B：NLDock对接结果。灰色球体为原始结合剂（天然构象），红色球体为生成样本。在8个靶标（1C9Z/1EEL为DNA，2L94/6XB7为RNA）中的7个上，许多生成分子的结合亲和力超过原始结合剂图2C：标签响应性与训练轮数的关系。响应性指标通过计算NA结合剂产率比值的Log10得到，分子是输入”NA”标签后的NA产率，分母是输入”Pro”标签后的NA产率。模型逐渐学习到核酸和蛋白靶向小分子的特征，最优产率均>50%，远高于基线模型结果：模型数据集有效SMILES率(%) NA binders产率(%) 新颖性(%) SeqGAN NA only 76.3 45.2 68.4 ORGAN NA only 79.1 48.6 71.2 ADSeqGAN NA + Protein 91.5 67.8 74.3 关键发现： ADSeqGAN的有效SMILES率提升约12-15% NA binders产率提升约19-22%，证明辅助数据集和辅助判别器的有效性新颖性略有提升，表明模型不仅复制训练数据，而是学到了类别特征案例二：CNS药物生成数据集： CNS药物：约300个样本（仅占总数据集的1.5%）非CNS药物：约20,000个样本挑战：极度不平衡的数据集导致模型倾向生成多数类分子。策略：对CNS药物样本进行10倍过采样训练时权重调整，增强CNS类别的学习图3：消融实验结果图3A：MinMax正则化对分子长度的影响。橙色为无MinMax，蓝色为有MinMax；实线为NA标签，虚线为Pro标签。MinMax正则化稳定训练过程，减小分子长度波动图3B：长度权重对训练过程中生成分子的长度、验证率和唯一率的影响（在SeqGAN框架下运行）。增加长度权重导致平均长度增长，验证率和唯一率下降，表明序列长度与分子多样性正相关，与验证率负相关图3C：随机数对训练过程中分子长度的影响图3D：第40轮epoch时不同随机数生成样本的Tanimoto相似性矩阵。不同随机数导致结构差异显著，建议使用多个随机数实验以获得更广泛多样性图4：ADSeqGAN在CNS和非CNS药物数据集上的训练结果图4A：采样策略对CNS药物产率的影响。展示不同过采样倍数（1×、3×、10×）对CNS药物生成率的提升效果图4B：原始数据集和四种小样本分子生成模型的CNS_MPO统计结果。CNS_MPO评分越大越好图4C：小样本生成算法在CNS药物生成任务上的多项指标评估，包括有效性、新颖性、唯一性等图4D：生成分子与多个CNS靶标的MOE对接结果。绿色棍状结构为原始分子，红色棍状结构为生成样本。4MM5是LeuBAT（delta13突变体）与舍曲林的复合物，6AWP是人5-羟色胺转运蛋白ts3与氟伏沙明的复合物结果：模型 CNS生成率(%) 有效SMILES率(%) 类药性(Druglikeness)(%) SeqGAN 3.2 82.1 76.4 ORGAN 4.7 84.3 78.2 ADSeqGAN (无过采样) 5.8 86.5 79.1 ADSeqGAN (10×过采样) 18.4 88.2 81.3 关键发现：过采样策略使CNS生成率从5.8%跃升至18.4%，提升约3倍有效SMILES率和类药性同步提升证明了ADSeqGAN在极度不平衡数据集上的适用性案例三：CB1配体设计数据集： CB1受体配体：约3000个已知配体，包含抑制常数$k_i$值数据集相对平衡任务：生成新型CB1配体候选评估方法：使用MACCS指纹作为描述符构建分类模型应用类药性过滤器（QED评分、Lipinski五规则）使用靶标特异性LRIP-SF评分函数预测活性（AUC=0.91）以$pK_i = 6$（对应1 μM）为阈值判定活性关键发现： ADSeqGAN生成分子的预测活性率达32.8% 命中率超过大多数CB1专用化合物库，更远高于通用筛选库生成的分子具有新颖性和类药性证明了ADSeqGAN能够为特定药物靶点生成高质量分子消融实验为验证各组件的贡献，作者进行了详细的消融研究：配置有效SMILES率(%) 目标类产率(%) 基线SeqGAN 78.2 46.3 +预训练生成器 82.5 (+4.3) 49.1 (+2.8) +WGAN目标 84.1 (+5.9) 51.7 (+5.4) +辅助判别器 88.3 (+10.1) 62.4 (+16.1) 完整ADSeqGAN 91.5 (+13.3) 67.8 (+21.5) 关键洞察：辅助判别器贡献最大，单独提升目标类产率约10% 预训练和WGAN各自贡献约2-5%的性能提升组件协同效应明显，完整模型性能超过单独组件之和 Q&A Q1: 为什么选择随机森林而非深度神经网络作为辅助判别器？ A1: 小样本友好：随机森林在小数据集上表现稳定，不易过拟合可解释性：基于决策树的特征重要性分析可以揭示哪些分子描述符对分类最关键计算效率：训练速度快，预训练成本低先验知识整合：可以直接使用化学领域知识设计的分子描述符（如Lipinski规则、拓扑指数等） Q2: 辅助数据集的选择有哪些原则？是否任意相关数据都能提升性能？ A2: 共享底层特征：辅助数据应与目标数据在某些分子特征上有重叠（如都是小分子药物）适度差异性：过于相似会导致判别器无法区分，过于不同则迁移效果差数量平衡：辅助数据不宜过多（避免压倒目标数据），也不宜过少（无法提供足够信息）实验表明：蛋白结合剂辅助核酸结合剂生成效果好，但如果用完全不相关的类别（如聚合物）则无帮助 Q3: 过采样策略是否会导致过拟合？如何平衡过采样比例？ A3: 过拟合风险：确实存在，过度过采样会导致模型记忆少数类样本而非学习其分布缓解策略：结合数据增强（如SMILES的不同写法、等价表示）正则化技术（dropout、权重衰减）验证集监控（若验证性能下降则停止）经验法则：本文实验中10倍过采样效果最佳，更高倍数（如50倍）导致性能下降动态调整：可根据生成分子的类别分布动态调整过采样比例 Q4: ADSeqGAN生成的分子如何进一步筛选和验证？ A4: 计算筛选：分子对接评估结合亲和力靶标特异性评分函数（如本文的LRIP-SF） ADMET性质预测（吸收、分布、代谢、排泄、毒性）实验验证：优先合成top-ranked分子体外酶活性测定细胞水平功能验证迭代优化：将实验反馈纳入下一轮生成（主动学习） Q5: 模型的训练时间和计算资源需求如何？是否适合实际药物发现流程？ A5: 训练成本：预训练生成器：2-4小时（单GPU，如RTX 3090）辅助判别器训练：<30分钟（CPU即可） ADSeqGAN对抗训练：6-10小时（单GPU）生成速度：10,000个分子约5分钟实用性：相比实验合成和测试（周-月级别），计算成本可忽略，完全适合集成到药物发现流程关键结论与批判性总结主要贡献 ADSeqGAN通过辅助判别器机制有效解决了小样本分子生成难题，在多个实际应用中显著优于基线模型混合数据集训练和少数类过采样策略为数据稀缺和不平衡场景提供了实用解决方案在核酸结合剂、CNS药物、CB1配体三个代表性任务中验证了方法的通用性和鲁棒性系统的消融实验揭示了各组件的贡献，为未来改进提供了清晰方向局限性辅助数据集依赖：方法性能依赖于找到合适的辅助数据集，对于全新靶点可能缺乏相关数据分子描述符选择：当前基于人工选择的描述符，可能遗漏深度特征生成多样性：虽有改善，但相比扩散模型等最新方法，多样性仍有提升空间大分子局限：SMILES表示对大分子（如多肽、大环）效果较差，未来可扩展到图表示实验验证缺失：论文主要基于计算预测，缺乏湿实验验证生成分子的实际活性未来研究方向自动化辅助数据选择：开发算法自动识别和整合最佳辅助数据集多模态辅助判别器：整合分子图、3D构象等多种表示的判别器主动学习集成：将生成模型与主动学习循环结合，利用实验反馈迭代优化大分子扩展：开发基于图神经网络的辅助判别器，支持大分子和生物大分子生成可解释性增强：分析辅助判别器学到的特征，揭示分子设计的化学原理多靶点联合优化：扩展到同时优化多个靶点活性和ADMET性质的多目标生成

Machine Learning & AI · 2025-11-19

分子性质预测：机器学习回归算法详解（三）高级模型与应用指南

Machine Learning & AI · 2025-11-15

数据分割的艺术：splito教程

数据分割的艺术：splito教程 splito是一个专门为生命科学领域设计的机器学习数据分割库。本文深入探讨了splito库中各种数据分割方法的原理、应用场景和实现细节，包括基础的骨架分割、基于结构的分割、分子量分割、分层分布分割以及先进的多目标优化分割方法。通过详细的代码示例和实际应用案例，帮助研究人员在药物发现项目中选择合适的数据分割策略。关于Splito Splito是一个专为辅助药物发现而设计的Python库，通过提供强大的数据解析和分割方法，帮助研究人员和化学家高效处理机器学习项目中的数据。 Splito是Datamol生态系统的一部分：https://datamol.io 安装可以使用pip安装splito： pip install splito 文档官网：https://splito-docs.datamol.io/stable/ 核心结论 splito提供了从基础到高级的多种专业数据分割方法，覆盖药物发现全流程骨架分割和结构分割（Perimeter/MaxDissimilarity）测试模型对新化学结构的泛化能力 SIMPD通过多目标优化模拟真实项目中分子性质的时间演进 Lo Splitter评估模型对微小结构修饰的敏感度，专为先导化合物优化设计 MOOD Protocol自动选择最适合特定部署场景的分割策略背景在机器学习项目中，特别是在药物发现领域，数据分割是一个至关重要的步骤。模型使用训练集构建，然后在测试集上进行预测评估。测试集预测值与实际活性值的一致程度（通常用R平方等指标量化）作为模型内部一致性的评估指标，也是模型预测能力的指标。然而，预测估计的具体标准取决于选择测试集化合物的标准，与真实前瞻性预测场景相比。在药物发现项目中，采用各种数据分割策略来训练和评估机器学习模型。这些策略有助于确保模型的性能稳健，并且能够很好地泛化到新的、未见过的数据。常见的分割策略包括随机分割、时间序列分割、基于骨架的分割、分层分割等。 splito库正是为了解决这些数据分割挑战而设计的，它为生命科学领域的研究人员提供了强大的数据解析和分割工具。研究内容基础分割方法：骨架分割骨架分割（ScaffoldSplit）是药物发现中最常用的分割方法之一。这种方法基于公共结构来分割化学数据集，确保训练集和测试集包含不同的化学结构，同时保持骨架的多样性。方法原理与应用骨架分割基于公共结构将数据集分区，确保训练集和测试集包含不同的化学骨架，从而评估模型对新化学结构的泛化能力。当骨架对生物活性有显著影响时最有用，通常在先导化合物优化阶段使用。代码实现 import datamol as dm from splito import ScaffoldSplit # 加载数据 data = dm.data.chembl_drugs() # 初始化分割器 splitter = ScaffoldSplit(smiles=data.smiles.tolist(), n_jobs=-1, test_size=0.2, random_state=111) # 生成训练集和测试集的索引 train_idx, test_idx = next(splitter.split(X=data.smiles.values)) 可视化结果图1：ScaffoldSplit的化合物UMAP嵌入可视化（蓝色=训练集，橙色=测试集）图2：ScaffoldSplit的骨架UMAP嵌入可视化（骨架在化学空间中形成明显的分离）我感觉也没太分开。。。基于结构的分割方法 PerimeterSplit PerimeterSplit通过迭代选择距离最远的分子对，将位于化学空间边缘的分子放入测试集，测试模型的外推能力。实践发现这种方法能够选出具有更好泛化能力的模型。图3：PerimeterSplit的UMAP嵌入可视化（测试集分布在化学空间边缘） MaxDissimilaritySplit 最大不相似性分割通过最大化训练集和测试集之间的距离来分割数据。选择两个最不相似的分子分别作为训练集和测试集的“种子”，然后迭代构建，使测试集聚集在化学空间的某个区域，训练集覆盖其余区域。图4：MaxDissimilaritySplit的UMAP嵌入可视化（最大化训练集与测试集的不相似性）代码实现 import datamol as dm import splito # 加载数据 data = dm.data.freesolv() # 定义PerimeterSplit splitter = splito.PerimeterSplit(n_jobs=-1, test_size=0.2, random_state=111) train_idx, test_idx = next(splitter.split(X=data["smiles"].values)) # 定义MaxDissimilaritySplit splitter = splito.MaxDissimilaritySplit(n_jobs=-1, test_size=0.2, random_state=111) train_idx, test_idx = next(splitter.split(X=data.smiles.values)) 其他有用的分割方法 MolecularWeightSplit 分子量分割通过按分子量对分子进行排序，然后找到合适的分割点将分子分成两个集合。应用场景是训练一个能够从小分子学习SAR并旨在泛化到更大分子的模型。 splitter = splito.MolecularWeightSplit(test_size=0.2, random_state=111, generalize_to_larger=True) train_idx, test_idx = next(splitter.split(X=data.smiles.tolist())) 图5：MolecularWeightSplit的分子量分布（橙色=训练集小分子，蓝色=测试集大分子）图6：MolecularWeightSplit的UMAP嵌入可视化 StratifiedDistributionSplit 分层分布分割使用实验测量值来分割数据集，使得训练集、测试集和验证集都具有相同的值分布。而不是使用某种间隔进行分箱，我们将使用测量值的一维聚类。 splitter = splito.StratifiedDistributionSplit(test_size=0.2, random_state=111) train_idx, test_idx = next(splitter.split(X=data["smiles"].tolist(), y=data.expt.tolist())) 图7：StratifiedDistributionSplit的值分布（蓝色和橙色曲线重合，保持相同分布）高级多目标优化分割：SIMPD SIMPD（Simulated Medicinal Chemistry Project Data，模拟药物化学项目数据）是一种基于多目标遗传算法的高级数据分割方法，由ETH Zurich和诺华生物医学研究所开发。方法原理核心思想：模拟真实药物化学项目中的时间分割（time-split）场景。在真实的药物发现项目中，后期化合物通常在分子性质上优于早期化合物。SIMPD使用多目标遗传算法，基于对诺华130多个先导化合物优化项目的深入分析，将公开数据集分割成模拟这种早期/后期差异的训练集和测试集。关键特征：模拟时间演进：测试集模拟项目后期的化合物，具有更优的分子性质谱基于真实项目经验：目标函数源自对130多个真实药物化学项目早期和后期化合物差异的广泛分析多目标优化：同时优化8个目标，涵盖分子性质、活性分布、化学空间覆盖等多个维度金标准替代：为缺乏真实时间序列数据的公开数据集提供了time-split验证的替代方案应用场景药物开发项目中后期化合物通常在分子性质谱中具有改进特征（更大分子量、新骨架、增强活性等）。SIMPD为模型泛化能力提供了稳健估计，在先导化合物优化阶段非常有价值。八个优化目标 SIMPDSplitter选择了八个目标用于MOGA，基于NIBR药物发现项目中训练集和测试集之间描述符差异和空间统计的分析：分子性质差异目标（1-4）： $\Delta_{\text{test-train}}\text{median(SA_Score)}=0.28$ - 合成可及性评分差异 $\Delta_{\text{test-train}}\text{median(HeavyAtomCount)}=3.1$ - 重原子数差异 $\Delta_{\text{test-train}}\text{median(TPSA)}=13.2$ - 拓扑极性表面积差异 $\Delta_{\text{test-train}}\text{median(fr_benzene/1000\ HeavyAtoms)}=-8.8$ - 苯环比例差异活性分布目标（5-6）： $\text{frac}_{\text{active}}(\text{train})=\text{value from dataset}$ - 训练集活性分子比例 $\text{frac}_{\text{active}}(\text{test})=\text{value from dataset}$ - 测试集活性分子比例空间统计目标（7-8）： $10<\sum_{G}-\sum_{F’}<30$ - 控制测试集的空间聚集程度 $\sum_{G}>70$ - 确保测试集内部有足够的空间分离其中G函数衡量测试集内部点之间的距离分布，F函数衡量测试集到训练集的距离分布，这两个空间统计指标确保训练集和测试集在化学空间中既有区分又有合理的覆盖。代码实现 from splito.simpd import SIMPDSplitter # 初始化分割器 simpd_splitter = SIMPDSplitter( n_splits=5, pop_size=500, ngens=10, target_GF_delta_window=(10, 30), target_G_val=70 ) # 拟合数据集并分割 result = simpd_splitter.fit(data[mol_col].values, data[data_col].values) train_idx, test_idx = next(simpd_splitter.split(data[mol_col].values)) 可视化结果图8：SIMPDSplit的UMAP嵌入可视化（蓝色=测试集，橙色=训练集，点的大小表示溶解度类别）先导化合物优化专用分割：Lo Splitter Lo Splitter（Lead Optimization Splitter，先导化合物优化分割器）是专门为先导化合物优化阶段和分子生成任务设计的数据分割方法。通俗理解问题场景：假设你已经找到一个有潜力的药物分子（先导化合物），现在需要对它进行“微调”——比如把一个甲基换成乙基，或者改变一个取代基的位置。这些微小改动可能显著影响药效。传统方法的问题：ScaffoldSplit等方法测试的是模型能否预测“完全不同骨架”的分子，但在先导优化阶段，我们更关心模型能否区分“长得很像但性质不同”的分子。 Lo Splitter的解决方案：创建由“长得很像的分子小团体”组成的测试集，每个团体保留一个分子在训练集（模拟已知的先导化合物），其余放入测试集。这样就能评估模型是否真的理解“把-CH₃换成-C₂H₅会让活性提高2倍”这种细微差异。方法原理 Lo Splitter通过创建一个由相似分子簇组成的测试集来解决这个需求：测试集由相似分子簇组成：每个簇包含结构相似的分子簇内性质变化大于实验噪声：确保簇内的性质差异是真实的，而不是测量误差每个测试簇中恰好一个分子移到训练集：模拟已知的先导化合物这种设计使我们能够评估模型识别微小修改的能力，帮助我们选择最适合先导化合物优化或作为分子生成评分器的模型。与其他分割方法不同，Lo splitter不仅能区分不同骨架，还能“理解”不同取代基如何影响性质。图9：Lo Splitter概念图（测试集由相似分子簇组成，每个簇保留一个分子在训练集作为已知先导）关键参数 threshold（默认0.4）：ECFP4 1024位Tanimoto相似度阈值。相似度高于此阈值的分子被认为非常相似，可以归为一个簇 min_cluster_size（默认5）：每个簇的最小分子数量 max_clusters（默认50）：算法在找不到更多合适的簇或达到此限制时停止 std_threshold（默认0.60）：簇内标准差阈值。只选择簇内变化超过噪声变化的簇。默认值0.60是ChEMBL中logKi数据的噪声标准差。如果使用内部高质量数据，可以设置为0.2左右代码实现 from splito.lohi import LoSplitter from scipy.stats import spearmanr # 初始化并分割 lo_splitter = LoSplitter(threshold=0.4, min_cluster_size=5, std_threshold=0.60) train_idx, cluster_idx = lo_splitter.split(data['smiles'], data['calc']) # 评估：计算每个簇内的Spearman相关系数 cluster = data.iloc[cluster_idx[0]] spearman_score = spearmanr(cluster['calc'], predict(model, cluster))[0] 评估指标：使用Spearman秩相关系数在每个簇内计算并跨簇平均，归一化后在-1（完全错误）、0（随机）和1（理想）之间。自动选择最佳分割方法：MOOD Protocol MOOD（Multi-Objective Optimization for Dataset splitting，多目标数据集分割优化）协议是一种元方法，它能够自动选择最适合特定数据集和部署场景的分割策略。通俗理解问题场景：你有一堆分割方法（随机分割、骨架分割、Perimeter分割等），不知道选哪个？每个方法都声称自己好，但哪个真正适合你的项目？部署集/部署场景：模型训练好后，在实际应用中需要预测的那些新分子。比如临床候选药物、虚拟筛选得到的化合物等。核心思想：假设你知道模型最终要预测什么样的分子（部署场景）。MOOD的逻辑是——好的分割方法应该让测试集和未来要预测的分子”距离训练集的远近程度”相似。类比：就像高考模拟题，好的模拟题应该和真实高考题“难度分布”相似。如果模拟题都是简单题，但高考全是难题，那模拟考高分也没用。MOOD通过计算“测试集离训练集有多远”是否接近“未来要预测的分子离训练集有多远”，来评判哪种分割方法更靠谱。实际应用：比如你训练模型是为了预测“临床候选药物”的性质，那就应该用临床候选药物作为部署场景的参考。MOOD会帮你选择一个分割方法，使得测试集和临床候选药物在化学空间中的位置关系类似，这样测试结果更能反映模型在真实应用时的表现。工作流程定义部署场景：准备一组代表未来应用场景的分子（如已上市药物、临床候选药等），计算它们到训练集的距离分布（这是目标分布）评估各种分割方法：对每种候选分割方法计算test-to-train分布选择最佳方法：使用Jenssen-Shannon距离评分，选择与目标分布最相似的分割方法代码实现 import splito from sklearn.model_selection import ShuffleSplit # 定义候选分割器 splitters = { "Random": ShuffleSplit(), "Scaffold": splito.ScaffoldSplit(dataset.mol.values), "Perimeter": splito.PerimeterSplit(), "MaxDissimilarity": splito.MaxDissimilaritySplit(), } # 评估并选择最佳分割方法 mood = splito.MOODSplitter(splitters) ranking = mood.fit(X=dataset_feat, X_deployment=deployment_feat) 输出示例： split representativeness best rank 0 Random 0.375938 False 4.0 1 Scaffold 0.492793 False 3.0 2 Perimeter 0.526232 False 2.0 3 MaxDissimilarity 0.552740 True 1.0 在这个例子中，对于给定的部署场景，MaxDissimilarity是最具代表性的分割方法，能够最好地模拟部署时的数据分布特征。 Q&A Q1: 什么时候应该使用骨架分割而不是随机分割？ A1: 当您的数据集中包含多个不同的骨架系列（骨架多样性高）时，骨架分割特别有用。它确保模型在从未见过的骨架上进行测试，这对于评估模型泛化到新化学结构的能力至关重要。典型场景是先导化合物优化阶段，此时有多个不同骨架的先进分子系列需要优化。如果数据集中只有一个或少数几个骨架，骨架分割就没有意义了。 Q2: PerimeterSplit和MaxDissimilaritySplit有什么区别？ A2: PerimeterSplit选择分布边缘的分子，MaxDissimilaritySplit最大化训练集和测试集的总体不相似性。两者算法实现不同，但都旨在提高模型泛化能力。 Q3: SIMPDSplitter的计算成本很高，值得使用吗？ A3: SIMPD确实需要较多计算资源，但在先导化合物优化阶段非常有价值，能够模拟真实项目中分子特征的演变，提供更现实的泛化能力估计。 Q4: 如何选择适合我项目的分割方法？ A4: 考虑数据集特征（骨架多样性）、项目阶段（早期发现vs先导化合物优化）、预期目标（新骨架vs微小修饰）和计算资源。 Q5: 分割比例通常设置为多少合适？ A5: 常用的分割比例是80/20（训练集/测试集）或70/30。但具体比例应考虑数据集大小、项目需求和分割方法的特性。 Q6: Lo Splitter与其他分割方法的主要区别是什么？ A6: Lo Splitter独特之处在于它创建的测试集由相似分子簇组成，专门评估模型对微小结构修饰的敏感度。这与其他方法（如骨架分割）测试新骨架的泛化能力完全不同。Lo Splitter特别适合先导化合物优化阶段和分子生成任务。 Q7: 什么时候应该使用MOOD Protocol？ A7: 当不确定使用哪种分割方法、且有明确的未来应用场景（如知道模型最终要预测什么类型的分子）时使用MOOD。例如，如果你知道模型将用于预测临床候选药物，就可以用MOOD来选择最合适的分割方法。关键结论与批判性总结 splito库为生命科学领域的数据分割提供了强大而灵活的工具。通过系统性地理解各种分割方法的原理和应用场景，研究人员可以选择最适合其特定需求的策略。通过合理选择和应用splito中的数据分割方法，研究人员可以更准确地评估机器学习模型的泛化能力，从而加速药物发现进程并提高研究质量。

Machine Learning & AI · 2025-11-14

分子性质预测：机器学习回归算法详解（二）树模型与梯度提升

分子性质预测：机器学习回归算法详解（二）树模型与梯度提升系列导航：第一篇：基础回归模型 - 线性模型、支持向量机、近邻方法第二篇：树模型与梯度提升（本文）- 决策树、随机森林、XGBoost/LightGBM等第三篇：高级模型与应用指南 - 神经网络、概率模型、VAE、模型选择指南导读树模型和梯度提升是实战中最常用的回归方法，在Kaggle竞赛和工业界都有着广泛应用。本篇将详细介绍：决策树与随机森林：从单棵树到集成学习梯度提升家族：GradientBoosting、XGBoost、LightGBM、CatBoost等模型对比：帮助你选择最合适的树模型这些模型在分子性质预测、药物筛选等任务中表现优异，通常能达到最佳性能。 1. 决策树与随机森林 1.1 DecisionTreeRegressor（决策树回归器）核心思想：通过一系列if-else规则递归划分特征空间。 sklearn实现：from sklearn.tree import DecisionTreeRegressor 分裂准则（回归）： $\text{MSE} = \frac{1}{N}\sum_{i=1}^{N}(y_i - \bar{y})^2$ 每次选择使得子节点MSE之和最小的特征和阈值进行分裂。特点： ✅ 极高可解释性：决策路径清晰可视化 ✅ 自动特征交互：无需手动构造交叉项 ✅ 处理缺失值：部分实现支持 ❌ 容易过拟合：需要剪枝或限制深度 ⚙️ 关键参数： max_depth：树的最大深度（防止过拟合） min_samples_split：分裂节点所需最小样本数 min_samples_leaf：叶子节点最小样本数 📊 推荐场景：需要解释性的分子性质预测 1.2 RandomForestRegressor（随机森林回归器）核心思想：训练多棵决策树，通过Bagging + 特征随机采样降低方差。 sklearn实现：from sklearn.ensemble import RandomForestRegressor 算法流程： Bootstrap采样：从训练集中有放回抽取 $N$ 个样本特征随机：每次分裂只考虑随机选择的 $\sqrt{p}$ 个特征独立训练每棵树预测时取所有树的平均值特点： ✅ 强大泛化能力：集成学习减少过拟合 ✅ 特征重要性：可自动评估特征贡献度 ✅ 鲁棒性强：对噪声和异常值不敏感 ✅ 并行训练：各棵树独立，GPU加速友好 ⚙️ 关键参数： n_estimators：树的数量（通常100-500） max_features：分裂时考虑的特征数（默认 $\sqrt{p}$） max_depth：树的最大深度 📊 推荐场景：通用首选，平衡性能与速度的分子性质预测 1.3 ExtraTreesRegressor（极端随机树回归器）与随机森林的区别：不使用Bootstrap采样，使用全部训练数据分裂阈值完全随机选择（而非最优阈值） sklearn实现：from sklearn.ensemble import ExtraTreesRegressor 特点： ✅ 训练更快：省去阈值搜索步骤 ✅ 更低方差：更强的随机性 📊 推荐场景：大规模分子数据集，追求训练速度 1.4 决策树与随机森林家族综合对比模型 sklearn实现核心优势局限性计算复杂度训练速度推荐场景 DecisionTreeRegressor DecisionTreeRegressor 极高可解释性，自动特征交互容易过拟合 $O(n \log n)$ 快需要解释性的回归任务 RandomForestRegressor RandomForestRegressor 强大泛化，特征重要性，鲁棒内存占用大 $O(M \cdot n \log n)$ 中通用首选回归模型 ExtraTreesRegressor ExtraTreesRegressor 训练快，方差低随机性大 $O(M \cdot n \log n)$ 快大规模数据，追求训练速度对比要点：训练速度：ExtraTrees > RandomForest > DecisionTree 预测速度：DecisionTree > RandomForest ≈ ExtraTrees 内存占用：DecisionTree < ExtraTrees < RandomForest 过拟合风险：DecisionTree > RandomForest ≈ ExtraTrees 2. 梯度提升家族 2.1 核心思想梯度提升（Gradient Boosting）通过串行训练多个弱学习器，每个新模型专注于拟合前一个模型的残差（或梯度）。 2.2 GradientBoostingRegressor（标准梯度提升回归器） sklearn实现：from sklearn.ensemble import GradientBoostingRegressor 算法流程：初始化 $F_0(\mathbf{x}) = \bar{y}$ 对 $m = 1, 2, \ldots, M$：计算负梯度（伪残差）：$r_{im} = -\frac{\partial L(y_i, F(\mathbf{x}_i))}{\partial F(\mathbf{x}_i)}$ 训练决策树 $h_m$ 拟合 $r_{im}$ 更新模型：$F_m(\mathbf{x}) = F_{m-1}(\mathbf{x}) + \nu \cdot h_m(\mathbf{x})$ 其中 $\nu$ 是学习率。特点： ✅ 高准确性：通常优于随机森林 ✅ 灵活损失函数：支持多种回归任务 ❌ 训练缓慢：串行训练无法并行 ❌ 易过拟合：需要精细调参 ⚙️ 关键参数： learning_rate：学习率（0.01-0.3） n_estimators：迭代次数 max_depth：树深度（通常3-8） 2.3 XGBoostRegressor（极端梯度提升回归器）创新点：二阶泰勒展开：使用一阶和二阶梯度信息正则化：在目标函数中加入树复杂度惩罚列采样：借鉴随机森林的特征采样工程优化：并行化、缓存优化、GPU加速 sklearn实现：from xgboost import XGBRegressor 目标函数： $\mathcal{L} = \sum_{i=1}^{n}l(y_i, \hat{y}_i) + \sum_{k=1}^{K}\Omega(f_k)$ 其中 $\Omega(f_k) = \gamma T + \frac{1}{2}\lambda|\mathbf{w}|^2$（$T$ 为叶子节点数，$\mathbf{w}$ 为叶子权重）。特点： ✅ Kaggle神器：竞赛中最常用模型之一 ✅ 处理缺失值：自动学习缺失值的最优方向 ✅ 速度快：高效工程实现 ⚙️ 独特参数： subsample：行采样比例 colsample_bytree：列采样比例 reg_alpha, reg_lambda：L1/L2正则化 📊 推荐场景：追求极致性能的分子性质预测 2.4 LGBMRegressor（轻量级梯度提升回归器）创新点： GOSS（Gradient-based One-Side Sampling）：保留大梯度样本，随机采样小梯度样本 EFB（Exclusive Feature Bundling）：互斥特征打包，减少特征维度 Leaf-wise生长：按叶子节点最大增益生长（而非level-wise） sklearn实现：from lightgbm import LGBMRegressor 特点： ✅ 训练极快：大数据集上比XGBoost快5-10倍 ✅ 内存占用低：特征打包技术 ✅ 高准确性：与XGBoost相当或更好 ⚠️ 易过拟合：Leaf-wise策略在小数据集上需要谨慎 ⚙️ 独特参数： num_leaves：最大叶子节点数（核心参数） min_data_in_leaf：叶子最小样本数 📊 推荐场景：大规模分子数据库（>10万样本） 2.5 CatBoostRegressor（类别提升回归器）创新点： Ordered Boosting：解决梯度估计偏差问题原生支持类别特征：自动处理类别编码对称树：减少预测时间 sklearn实现：from catboost import CatBoostRegressor 特点： ✅ 开箱即用：默认参数表现优异 ✅ 鲁棒性强：对参数不敏感 ✅ 处理类别特征：SMILES子结构等类别信息 ❌ 训练稍慢：相比LightGBM 📊 推荐场景：混合特征（连续+类别）的分子数据 2.6 HistGradientBoostingRegressor（直方图梯度提升回归器） sklearn实现：from sklearn.ensemble import HistGradientBoostingRegressor 特点： ✅ 原生支持缺失值：无需预处理 ✅ 速度快：基于直方图的分裂 ✅ 无需安装额外库：scikit-learn自带 📊 推荐场景：快速原型开发，不需要额外依赖的回归任务 2.7 AdaBoostRegressor（自适应提升回归器）核心思想：每轮增加错误样本的权重，强迫后续模型关注难分样本。 sklearn实现：from sklearn.ensemble import AdaBoostRegressor 特点： ✅ 简单有效：历史悠久，理论成熟 ❌ 对噪声敏感：异常值会被过度关注 📊 推荐场景：数据质量高的回归问题 2.8 梯度提升家族综合对比模型 sklearn实现核心优势训练方式正则化特征采样适用数据规模计算效率推荐场景 GradientBoostingRegressor GradientBoostingRegressor 理论成熟，灵活损失函数串行无 ❌ 小-中数据集低需要精细调参的回归 XGBRegressor XGBRegressor 竞赛级性能，工程优化好串行 ✓ ✓ 中-大数据集高追求极致性能的回归 LGBMRegressor LGBMRegressor 训练极快，内存效率高串行 ✓ ✓ 大-超大数据集极高大数据集回归首选 CatBoostRegressor CatBoostRegressor 开箱即用，处理类别特征串行 ✓ ❌ 小-中数据集中混合特征的回归 HistGradientBoostingRegressor HistGradientBoostingRegressor 原生支持缺失值，sklearn自带串行 ✓ ✓ 中-大数据集高快速原型开发 AdaBoostRegressor AdaBoostRegressor 简单有效，历史悠久串行 ❌ ❌ 小数据集低数据质量高的回归对比要点：训练速度：LGBM > HistGB > XGB > CatBoost > GB > AdaBoost 内存效率：LGBM > HistGB > XGB > GB ≈ CatBoost > AdaBoost 大数据适应性：LGBM > XGB > HistGB > CatBoost > GB > AdaBoost 小数据表现：AdaBoost > CatBoost > GB > XGB ≈ HistGB > LGBM 类别特征处理：CatBoost > XGB ≈ LGBM > HistGB > GB > AdaBoost 3. 树模型实战建议 3.1 参数调优策略随机森林调参顺序： n_estimators：先设置一个足够大的值（如500） max_depth：从5开始逐步增加 min_samples_split 和 min_samples_leaf：防止过拟合 max_features：默认 $\sqrt{p}$ 通常已经很好梯度提升调参顺序： n_estimators 和 learning_rate：两者成反比，先固定一个 max_depth：通常3-8之间正则化参数：reg_alpha, reg_lambda（XGBoost/LightGBM）采样参数：subsample, colsample_bytree 3.2 性能优化技巧训练速度优化：使用LightGBM替代XGBoost（大数据集）减少 n_estimators，增加 learning_rate 限制 max_depth 使用GPU版本（XGBoost/LightGBM）内存优化：减少 n_estimators（随机森林）使用 max_bins 参数（LightGBM）特征选择，降维过拟合防止：增加 min_samples_leaf（随机森林）减小 learning_rate，增加 n_estimators（梯度提升）使用正则化参数 Early stopping（梯度提升）本篇小结第二篇介绍了实战中最常用的树模型和梯度提升方法： ✅ 决策树与随机森林：从单棵树的高可解释性，到随机森林的强大泛化能力，再到极端随机树的训练速度优势 ✅ 梯度提升家族：从经典的GradientBoosting，到竞赛神器XGBoost，再到大数据杀手LightGBM，以及开箱即用的CatBoost 这些模型的共同特点：准确性高：通常能达到最佳性能特征工程简单：自动处理特征交互鲁棒性强：对异常值和噪声不敏感实战建议：快速原型：RandomForest 追求极致性能：XGBoost或LightGBM 大数据集：LightGBM 类别特征多：CatBoost 需要解释性：DecisionTree或RandomForest（feature_importances_）下一篇将介绍神经网络、概率模型、深度生成模型（VAE），以及完整的模型选择指南，帮助你在实际项目中做出最佳选择。参考资料 Scikit-learn Documentation: https://scikit-learn.org/ XGBoost Documentation: https://xgboost.readthedocs.io/ LightGBM Documentation: https://lightgbm.readthedocs.io/ CatBoost Documentation: https://catboost.ai/docs/ Breiman (2001). “Random Forests” Chen & Guestrin (2016). “XGBoost: A Scalable Tree Boosting System” Ke et al. (2017). “LightGBM: A Highly Efficient Gradient Boosting Decision Tree”

Machine Learning & AI · 2025-11-10

分子性质预测：机器学习回归算法详解（一）基础回归模型

Machine Learning & AI · 2025-11-10

“MolAgent：智能体时代下的自动化分子性质预测系统”

MolAgent：智能体时代下的自动化分子性质预测系统本文信息标题: MolAgent：Biomolecular Property Estimation in the Agentic Era 作者: Jose Carlos Gómez-Tamayo, Joris Tavernier, Roy Aerts, Natalia Dyubankova, Dries Van Rompaey, 等发表时间: 2025年10月16日单位: Johnson & Johnson（比利时、新泽西州）、Open Analytics、比利时安特卫普大学、美国引用格式: Gómez-Tamayo, J. C., Tavernier, J., Aerts, R., Dyubankova, N., Van Rompaey, D., Menon, S., Steijaert, M., Wegner, J. K., Ceulemans, H., Tresadern, G., De Winter, H., & Ahmad, M. (2025). MolAgent: Biomolecular property estimation in the agentic era. Journal of Chemical Information and Modeling, 65(10), 10808–10818. https://doi.org/10.1021/acs.jcim.5c01938 参考资源： GitHub仓库：https://github.com/openanalytics/MolAgent Therapeutics Data Commons：https://tdcommons.ai/ Model Context Protocol文档：https://docs.anthropic.com/en/docs/agents-and-tools/mcp FLAME框架（对比参考）：https://github.com/Open-Source-Systems-Lab/flame_public 摘要 Agentic AI系统的出现正在推动科学与技术领域的深刻变革。大语言模型（LLM）、推理能力与外部工具集成的进步，催生了一个全新时代——AI智能体能够自主执行传统上由人类完成的计算任务。计算机辅助药物设计（CADD）作为一个包含复杂、相互依赖任务的多面过程，从这些进步中获益最大。然而，关键挑战在于构建与人类专家开发的模型相当的分子性质估计模型。MolAgent正是为了解决这一瓶颈而设计的——一个系统无关的agentic AI框架，专注于端到端自动化分子性质建模，支持2D/3D结构、传统描述符与深度学习特征的融合，并完全遵循Model Context Protocol（MCP）以实现与多样化agentic基础设施的无缝互操作。核心结论 Agentic AI转变：从被动的单步完成模型演进到具备自主多步规划、环境适应性与多工具协调能力的智能体架构 MCP标准化集成：MolAgent完全遵循Anthropic的Model Context Protocol，使其能够灵活接入各类agentic AI框架，包括Smolagents和其他LLM系统自动化模型构建能力：框架实现完全自动化的特征工程、模型选择、超参数优化与验证，无需人工专家干预多模态特征融合：整合RDKit描述符、Morgan指纹、深度学习嵌入（BottleneckTransformer）与基于3D结构的特征（AffinityGraph、ProLIF），在ADMET基准上达到与人类微调模型相当的性能实证验证：在TDC基准的23项ADMET任务上，MolAgent在“廉价”计算预算下展现出竞争力表现；在脂溶性（logP）预测中R²达0.89，在binding affinity建模中R²达0.72 背景大背景：Agentic AI的蓬勃发展 2024-2025年标志着人工智能的范式转变。LLM不再是被动的查询-响应工具，而是演变为具备动态推理、持久内存与函数调用能力的智能体。Gartner报告预测，到本十年末，数字智能体将独立管理高达80%的常规服务任务。这一转变对科学计算意义重大。最近的工作（van Weesep等，2025）展示了模块化LLM智能体系统如何协调化学信息学工具、进行文献驱动推理，并动态选择分子模拟、性质预测与假设生成模块——所有这些无需人工微观管理。药物发现中的关键瓶颈早期药物研发面临复杂、资源密集的挑战：多学科整合困难：传统管道依赖分区化专业知识（结构化学、药物化学、ADMET预测）数据碎片化：实验数据、文献、公开数据库之间缺乏无缝协调人工主导的高成本：模型开发、特征工程、超参数优化严重依赖专家人工操作，周期长、成本高可复现性困难：QSAR模型性能波动大，往往因特征选择、模型架构选择的武断性而难以再现当前的技术瓶颈尽管LLM在化学领域展现出潜力（ChemLLM在分子命名、分子生成等任务上超越GPT-3.5/GPT-4），agentic系统在分子性质建模中仍缺乏高保真工具：现有QSAR框架（FLAME、AutoML解决方案）往往面向通用ML应用，不能充分利用分子数据的特殊结构模型质量与自动化程度的权衡：自动化程度越高，通常意味着性能下降 MCP标准缺失：现有工具与agentic基础设施的互操作性不足，难以在复杂multi-agent工作流中无缝使用 MolAgent正是为了弥合这一鸿沟而设计的。关键科学问题 1. 能否实现“专家级”的自动化QSAR建模？问题核心：自动化系统是否能在无人工干预的前提下，构建与人类专家微调模型相当或更优的性质预测模型？这不仅涉及算法的先进性，更涉及对分子数据特殊性的深入理解——例如，化学系列内的相似性、活性悬崖等。 2. 如何在多种特征表示间实现高效的融合与选择？传统QSAR依赖手工选择的描述符集；深度学习方法提供自动学习但缺乏解释性。如何统一这两类信息？ 3. 3D结构信息能否显著提升binding affinity预测？ Structure-based descriptors（如蛋白质-配体相互作用）在虚拟筛选中被广泛使用，但如何系统地整合到端到端自动模型中？ 4. Agentic系统中的模型自主选择机制如何工作？ LLM何时、如何决定采用“廉价”vs “昂贵”的计算配置？自主决策的质量如何保证？创新点系统级创新：首个完全MCP-ready的分子性质建模框架，设计为agentic AI系统的一流公民特征工程自动化：集成五类特征生成器（RDKit、Morgan指纹、BottleneckTransformer、AffinityGraph、ProLIF），并实现自适应特征选择，无需专家指导嵌套交叉验证框架：采用leave-group-out策略，确保模型验证反映真实的新化学序列泛化能力，而非仅在相似化合物上的性能 3D感知的binding affinity建模：利用图神经网络（GRAPHGPS架构）整合原子与残基级别编码、蛋白质-配体相互作用指纹，在ABL1激酶案例中展示显著改进（R²从0.60提升至0.72）研究内容核心架构：端到端的agentic工作流 graph TB User["用户询问 （自然语言）"] --> Manager["经理智能体 （任务分解与协调）"] Manager --> DataAgent["数据检索智能体 （TDC/CSV/SDF处理）"] Manager --> ModelAgent["模型训练智能体 （MolAgent核心）"] DataAgent --> DataPrep["数据预处理 （SMILES验证、聚类）"] ModelAgent --> FeatureGen["特征生成 （多模态融合）"] FeatureGen --> Clustering["分子聚类 （Murcko/Butina）"] Clustering --> DataSplit["数据分割 （leave-group-out）"] DataSplit --> ModelSearch["模型搜索 （嵌套交叉验证）"] ModelSearch --> Ensemble["集成与堆叠 （多策略组合）"] Ensemble --> Validation["综合验证 （混合策略）"] Validation --> Output["结果输出 （指标、可视化、JSON）"] Output --> User MolAgent核心组件 1. MCP层（Model Context Protocol集成） MCP是Anthropic定义的标准化智能体-工具通信协议。MolAgent实现Python包装器，使得LLM能够通过简单的JSON RPC调用触发模型训练： LLM → automol_classification_model(data, target, features=“bottleneck", budget=“cheap") 这一设计确保了框架与任意MCP兼容的agentic基础设施的互操作性——无论是Claude API、Anthropic的agents还是第三方系统（如Hugging Face的Smolagents）。 2. 特征生成（Feature Generation） MolAgent支持五大类特征，形成一个渐进式丰富的特征生成管道：第一层：传统描述符（RDKITGenerator）物化学性质：分子量、logP、TPSA、HBA/HBD 拓扑描述符：连接性指数（Chi0-Chi4v/n）、Kier形状指数电子性质：部分电荷、Electrotopological State指数官能团计数（75+个）：醛基频率、酯基频率等第二层：指纹（ECFPGenerator） Morgan/ECFP指纹（可调半径与位长） MACCS keys（166维） Topological torsion指纹 Atom pair指纹优势：快速、可解释、基于化学结构的物理意义第三层：深度学习嵌入（BottleneckTransformer）加载在ChEMBL上预训练的transformer模型，通过自注意机制学习原子间的上下文关系，从“瓶颈层”提取512维的密集嵌入。我没查到这个东西？优势：无需再训练，捕捉全局分子特征，通常性能优于传统描述符第四、五层：3D结构特征 AffinityGraph：基于GRAPHGPS架构，采用消息传递神经网络与全局自注意，处理：原子级编码：配体原子特征的图表示残基级编码：蛋白质残基信息的聚合相互作用编码：配体原子与蛋白质残基间的Prolif相互作用（氢键、π-stacking、疏水作用等）位置编码：基于随机游走与指数衰减注意（GradFormer思想）在PDBbind与BindingNet上预训练，自动捕捉3D识别关键。 ProLIF交互指纹：氢键（供体/受体）、π-stacking、π-cation、离子相互作用、van der Waals接触提供药效团层面的解释性，有助于虚拟筛选 3. 数据聚类与分割（Clustering & Data Splitting）关键洞察：分子数据中的相似性偏差会导致过度乐观的验证结果。MolAgent实现三种聚类策略：策略原理使用场景 Murcko Scaffold 按Bemis-Murcko支架分组药物化学项目，注重支架多样性 Butina 基于指纹的层次聚类通用分子池，保留拓扑相似性 K-Means++ 在嵌入空间中聚类深度学习特征，自适应聚类数 leave-group-out验证：整个聚类作为一个单元从训练集中移除，评估模型对新化学序列的真实泛化能力。 4. 嵌套交叉验证（Nested Cross-Validation）外层循环（k折）：将数据分为k个fold，每个fold依次作为验证集最终性能报告为k个fold的未偏差估计内层循环（k折，在每个外层训练fold内）：进行超参数搜索与模型选择防止选择偏差（避免在验证集上过度优化）三种超参数搜索策略： GridSearch：穷举预定义的参数网格，适合小参数空间 RandomizedSearch：随机采样，计算效率高，100次迭代 HyperoptSearch（Bayesian优化）：使用Tree-structured Parzen Estimator (TPE)，高效定位高维参数空间中的有前景区域 5. 模型集成（Model Stacking & Ensembling） MolAgent实现六层级的集成策略，从简到复： Inner Methods：基础模型输出简单平均（回归）或投票（分类） Inner Stacking：多个stacking模型（每个外fold一个），输出再次聚合 Single Stack：单个meta-model在整个外折优化 Top Method：独立训练基础模型，单个meta-model学习组合权重 Top Stacking：基础模型在内fold训练，meta-model使用交叉验证输出 Stacking on Stacking（仅分类）：层级堆叠，形成meta-meta-model 示例：假设基础模型为[SVR, LightGBM, LogisticRegression]，meta-model为LightGBM，则最终预测为： $\hat{y} = \text{LightGBM}([SVR(\mathbf{X}), LightGBM(\mathbf{X}), LogReg(\mathbf{X})])$ 6. 验证程序（Validation Procedures）分层验证：确保训练集与验证集中活性类别的比例一致（对不平衡数据集至关重要）混合验证：同时应用：活性悬崖识别（Activity cliff）基于group的分割分层采样创造多维度的挑战，更接近真实部署情景。计算预算与模型配置 MolAgent通过三个预设计算预算级别来适应不同场景，每个级别对应不同的特征选择、超参优化策略和模型复杂度：回归任务（Regression）配置项 Cheap（快速执行） Moderate（平衡速度与精度） Expensive（最高精度）特征层级 RDKit + Morgan（第1-2层） RDKit + Morgan +BottleneckTransformer（第1-3层）全部五层特征（含AffinityGraph、ProLIF）最终模型单一模型或简单集成单一模型或混合器 Stacking回归器候选/基础模型候选：SVR、Lasso、Kernel Ridge基础：SVR、Lasso、PLS、Kernel Ridge 候选：SVR、Lasso、KernelRidge、LightGBM基础：SVR、Lasso、PLS、KernelRidge、SGD、Decision Trees、LightGBM 基础：SVR、Lasso、PLS、KernelRidge、SGD、Decision Trees、4个LightGBM（不同超参）Meta-learner：SVR、Lasso、KernelRidge或LightGBM 超参优化 GridSearch（穷举） RandomizedSearch（100次迭代） Bayesian优化（HyperOpt，100次）集成策略简单平均 (averaging) 加权集成 (weighted) Stacking-on-stacking 分类任务（Classification）配置项 Cheap（快速执行） Moderate（平衡速度与精度） Expensive（最高精度）特征层级 RDKit + Morgan RDKit + Morgan +BottleneckTransformer 全部五层特征最终模型单一模型或简单集成单一模型或混合器 Stacking分类器候选/基础模型候选：Logistic Regression基础：LogReg、SVM、k-NN 候选：LogReg或LightGBM基础：LogReg、SVM、k-NN、SGD、LightGBM 基础：LogReg、SVM、k-NN、SGD、Decision Trees、4个LightGBMMeta-learner：LogReg、Lasso、KernelRidge或LightGBM 超参优化 GridSearch RandomizedSearch（100次） Bayesian优化（HyperOpt，100次）集成策略投票分类器 (voting) 加权集成 (weighted) Stacking-on-stacking 术语解释：单一模型（Single Model）：从候选模型中选择性能最优的一个模型作为最终预测器简单集成（Simple Blender）：使用基础模型的简单组合策略回归任务：对所有基础模型的预测值进行简单平均（averaging）分类任务：使用投票分类器（voting classifier），按多数投票决定最终类别混合器（Blender）：更复杂的集成策略，对基础模型的输出进行加权组合（weighted ensemble），权重通过交叉验证优化 Stacking：两层集成架构第一层：多个基础模型（base estimators）独立训练并产生预测第二层：元学习器（meta-learner）学习如何最优地组合第一层的预测结果 Stacking-on-stacking：在stacking基础上进一步叠加，形成更深的集成层次关键设计：三个预算级别通过特征深度（从传统描述符到3D结构特征）、超参优化策略（从穷举到贝叶斯）和集成复杂度（从简单平均到stacking-on-stacking）形成递进式的性能-成本权衡。相对与绝对建模（Relative vs Absolute Modeling）对于数据稀缺的情景，MolAgent支持成对delta建模：不直接预测绝对性质，而是学习两个化合物间的相对差异： $\Delta_{\text{delta}} = f(X_i) - f(X_j)$ 优势：有效数据点数量翻倍（N个化合物可产生$N(N-1)/2$个成对比较）尤其适合lead优化场景（往往关注相对改进，而非绝对值）研究结果与验证结果1：ADMET基准性能（Table 1）在Therapeutics Data Commons的23项ADMET任务上，MolAgent采用cheap计算预算（GridSearch超参数优化）评估：任务 MolAgent 最佳已发布排名指标 Caco2_Wang 0.303±0.002 0.276±0.005 6/排行榜 MAE Lipophilicity_astrazeneca 0.309±0.001 0.467±0.006 1/排行榜 MAE Solubility_aqsoldb 0.889±0.001 0.761±0.024 8/排行榜 MAE herg 0.624±0.02 0.880±0.002 17/排行榜 AUROC ames 0.793±0.005 0.871±0.002 13/排行榜 AUROC 关键观察：脂溶性（logP）预测中排名第一，且仅用单次自动运行（无多次参数调整）在18/23任务中进入排行榜前20% 计算成本远低于人类微调（“廉价”预算 vs 多轮手工优化）结果2：脂溶性案例（Use Case II）用户指令：“使用最快的可用模型和bottleneck特征，训练脂溶性回归模型” 系统自主决策（多智能体协调）：数据检索智能体从TDC获取脂溶性数据集（4,200分子）计算分子描述符（LogP、TPSA等）管理员智能体注意到LogP与脂溶性的强正相关（Pearson r ≈ 0.8）自主决策：将RDKit LogP添加为额外特征，尽管用户未明确提及模型训练智能体构建blender模型（bottleneck + LogP）最终性能： R² = 0.8692 Pearson r = 0.9327 MAE = 0.3235 原理：bottleneck特征捕捉全局分子性质，而LogP提供显式的关键驱动因子，两者的组合产生协同效应。 ⚠ 小编锐评：脂溶性本身在化学中常用LogP量化。技术上不算作弊，但确实降低了科学价值：角度评价实用性 ✅ 如果目标是”快速得到好性能”，这完全合理科学性 ⚠️ 缺乏新洞察：我们早就知道LogP算法与实验LogP高度相关模型泛化 ⚠️ 对其他ADMET性质（如溶解度、渗透性），这种”捷径”不存在 Agentic能力展示 ✅ 证明了LLM能发现特征-目标相关性并自主利用图1：多智能体框架在脂溶性任务中的工作流程原文中的Figure 1展示了以下步骤：用户层：提出“使用最快的可用模型和bottleneck特征训练脂溶性回归模型”的自然语言指令数据检索智能体：从Therapeutics Data Commons（TDC）自动定位并获取脂溶性数据集管理员智能体的智能决策：系统被提示使用bottleneck特征进行快速执行，但框架自主发现了关键洞察——RDKit LogP与脂溶性具有显著的正相关性（Pearson相关系数 ≈ 0.8），因此主动决定将RDKit LogP添加为建模管道中的额外特征，尽管用户未明确要求模型训练智能体：基于扩充的特征集（bottleneck + LogP）构建最终的回归模型性能输出：包含预测与真实值的散点图以及模型性能指标这个案例充分体现了agentic系统的自主推理能力——框架不是被动地执行指令，而是能够发现数据中的关键相关性并主动整合到建模流程中。结果3：ABL1激酶Binding Affinity（Use Case III）背景：ABL1（tyrosine-protein kinase ABL1）是关键的药物靶点（例如，伊马替尼靶向ABL1的癌症治疗）。准确的binding affinity预测对lead optimization至关重要。数据： 1,078个化合物的3D结构、SDF与PDB文件目标：pKi（结合亲和力）系统采用的特征： BottleneckTransformer（2D） RDKit描述符 AffinityGraph（3D）：整合原子-配体图、残基-蛋白质图、相互作用编码 fps_1024_2（另一Morgan指纹变体）性能： R² = 0.72 Pearson r = 0.87 MAE = 0.75 kcal/mol RMSE = 0.91 kcal/mol RMSE解读：±0.91 kcal/mol的平均误差在药物设计中可接受（药物discovery通常目标精度为±1 kcal/mol）。关键发现：AffinityGraph的加入相比仅用2D特征，R²提升约0.12，充分展示了3D信息的显著价值。图2：智能体框架在ABL1激酶binding affinity任务中的工作流程原文中的Figure 2概览了框架在binding affinity预测任务中的工作流程：数据获取层：系统根据用户指令获取ABL1激酶复合物的3D结构数据（SDF与PDB文件），这些数据来自之前发表的研究 3D特征感知能力：框架能够整合和处理结构化学信息，充分利用3D结构数据的优势特征生成管道：同时提取多类特征——BottleneckTransformer（2D学习）、RDKit描述符、AffinityGraph（3D图神经网络）与ProLIF相互作用指纹智能体协调：各个智能体协同工作，将3D结构信息无缝集成到建模流程中结果输出：最终的binding affinity预测模型，附带性能指标与可视化案例的科学意义：这个案例演示了3D结构信息对binding affinity预测的关键作用，也展示了agentic框架在处理复杂、多模态数据时的灵活性——即使仅有2D分子结构，系统也能运行（如脂溶性案例）；一旦有3D结构可用，框架又能自动利用这些信息以大幅提升性能。 Q&A Q1：为什么需要三个不同的计算预算级别？ A1：反映现实中的资源约束与精度权衡。在早期筛选中，速度优先（Cheap预算，数秒内得到结果）；在lead优化中，精度优先（Expensive，可接受数分钟计算）。LLM可根据任务的关键性自主选择。 Q2：AffinityGraph为何在binding affinity预测中效果显著？ A2：Binding affinity是3D特异性的强函数。AffinityGraph通过图神经网络捕捉：原子级细节：配体原子的类型、形式电荷蛋白质环境：靶点残基的类型、位置、rotamer状态相互作用指纹：特定的氢键、疏水接触等这些信息无法仅从2D分子结构中获得。 Q3：MCP为什么对agentic系统至关重要？ A3：MCP定义了标准化的JSON-RPC通信协议，使得：任何LLM（Claude、GPT-4、开源模型）都能无缝调用 MolAgent 不同的agentic框架（Smolagents、LangChain、自定义系统）都能互操作避免vendor lock-in，提升系统的可组合性与可维护性 Q4：Leave-group-out验证相比stratified validation的优势是什么？ A4： Stratified validation：确保类别平衡，但可能让化学相似的化合物同时出现在训练与验证集中——导致过度乐观的性能估计（这在药物设计中很常见，称为activity cliff问题） Leave-group-out：整个化学系列（共享支架的化合物组）被保留，强制模型泛化到新颖的化学空间——更接近实际应用 Q5：为什么要进行嵌套交叉验证而不是简单的CV + 单独测试集？ A5：简单CV：在同一数据上进行模型选择和评估，产生选择偏差（选择的模型在特定CV分割上过度优化）嵌套CV：内层用于选择，外层用于无偏评估，两者解耦，产生可靠的性能估计。学术标准实践。关键结论与批判性总结潜在影响 Agentic drug discovery的可行性验证：MolAgent证明了高保真的分子建模可以完全自动化，为autonomous discovery pipelines铺平道路生成式AI在CADD中的实际应用：不再是“LLM可以生成分子”的宽泛声明，而是具体的、可部署的工具学术-产业交汇：来自J&J等大制药公司的投入，表明业界对agentic方法的认真态度开源生态：源代码开放（GitHub），降低采用门槛，可能激发后续的创新与改进存在的局限性数据集规模与多样性：TDC基准多为公开可用的数据（ChEMBL衍生），未必代表真实的药物discovery项目的数据分布（往往涉及专有数据、更复杂的化学空间）模型可解释性：BottleneckTransformer与AffinityGraph均为黑箱模型。虽然ProLIF提供相互作用指纹的解释，但整体模型输出的解释性仍不如传统QSAR描述符 3D结构依赖：AffinityGraph需要高质量的3D复合物结构（PDB或MD快照）。在高通量筛选或早期发现阶段（仅有2D结构），这一优势无法充分利用计算成本：虽然“廉价”预算已相对便宜，但Expensive预算（Bayesian优化+复杂集成）的计算成本未充分讨论。对大规模、数百万化合物的虚拟筛选，仍可能昂贵 agentic决策的可靠性：MolAgent展示了LLM能自主添加特征（脂溶性案例），但何时这种自主决策会失败（e.g., 添加无关特征导致过拟合）尚未系统研究未来研究方向跨领域迁移学习：预训练的BottleneckTransformer基于ChEMBL，对专有化学空间（例如蛋白降解剂、ADC）的适应性有待探索多任务与多目标建模：现有框架主要针对单一性质。多约束优化（ADMET + 合成可行性 + 知识产权风险）的agentic协调仍是开放问题动态特征选择：目前特征集相对固定。数据驱动的特征选择（在模型训练过程中动态移除低信息特征）可能进一步提升效率不确定性量化：模型输出的置信度估计对drug discovery至关重要。集成方法提供某种形式的不确定性，但贝叶斯方法可能更鲁棒小编锐评：工具还是很容易被抢发，“要抓紧时间实施”。这篇做得比较简单，但还是占坑了。

Machine Learning & AI · 2025-11-09

Deep Learning破解双功能抗菌肽设计：DeepQSAR模型的应用与突破

Deep Learning破解双功能抗菌肽设计：DeepQSAR模型的应用与突破本文信息标题：The Use of DeepQSAR Models for the Discovery of Peptides with Enhanced Antimicrobial and Antibiofilm Potential 作者：Jiaying You, Hazem Mslati, Evan F. Haney, Noushin Akhoundsadegh, Robert E.W. Hancock, Artem Cherkasov 发表时间：2025年单位：加拿大不列颠哥伦比亚大学（UBC）、渥太华大学，加拿大引用格式：You, J., Mslati, H., Haney, E. F., Akhoundsadegh, N., Hancock, R. E. W., & Cherkasov, A. （2025）. The use of DeepQSAR models for the discovery of peptides with enhanced antimicrobial and antibiofilm potential. Journal of Chemical Information and Modeling, https://doi.org/10.1021/acs.jcim.5c02138 源代码：https://github.com/chill-bear/peptides（包含数据预处理脚本、模型训练代码和图表生成脚本）摘要针对抗生素耐药性的全球危机，抗菌肽（AMPs）因其独特的直接杀菌机制和较低的抗性风险而被视为下一代治疗药物。然而，同时预测抗菌和抗生物膜活性的计算方法仍然匮乏。本研究开发了一种新型Deep QSAR框架，将前馈神经网络（用于定量预测生物膜抑制效率）与递归神经网络（用于二分类抗菌活性预测）相结合，通过迁移学习实现高效的多目标肽设计。模型在5折交叉验证中达到90%的准确率，准确度和召回率分别为0.90和0.88。基于模型预测和聚类分析，我们合成并验证了100个设计肽，其中44个显示出优于参照肽IDR-1018的抗生物膜活性，31个表现出更强的抗菌活性，29个实现了两种活性的同步增强。分子动力学（MD）模拟揭示了这些肽通过强而选择性的细菌膜结合机制（特别是多价的赖氨酸/精氨酸-磷脂酸酯相互作用）来实现其效能的。核心结论首次实现同时预测：开发了第一个能够同步预测抗菌和抗生物膜活性的Deep QSAR模型，突破了传统单一功能预测工具的局限显著的性能优势：90%准确率（5折CV）、精确度0.90、召回率0.88，超过现有Macrel、AI4AMP和DBAASP等预测工具。实验验证的成功率高：100个设计肽中29个实现双功能增强，展现出模型的实用价值。最强肽的10倍增强：顶级肽MVLRIKLRLKIR对生物膜的IC50仅为0.147 μM，较参照肽（1.417 μM）低近10倍。机制清晰：MD模拟证实膜结合和选择性是关键驱动因素，为进一步优化提供了理论基础。背景抗生素耐药性（AMR）已成为全球公共卫生危机。过度使用和滥用抗生素导致环境污染加剧，迫使微生物产生防御机制。这不仅削弱了现代医学的治疗效果，还增加了医疗成本和感染死亡率。然而，小分子抗生素的传统开发模式面临瓶颈：新药研发周期长、成本高、成功率低，而且耐药菌株快速进化。抗菌肽（AMPs）是一类天然防御性蛋白质，广泛分布于细菌、植物、真菌和动物中。与传统小分子抗生素不同，AMPs通过直接破坏细菌膜（如pore formation、carpet机制）和诱导细胞内应激反应来杀灭病原体，这种机制导致耐药菌株发展的可能性大大降低。此外，AMPs还展现出对生物膜的抑制活性，这对治疗慢性感染和医疗器械相关感染至关重要。然而，传统AMP发现仍依赖于高成本的高通量实验筛选和试错法。虽然机器学习（ML）和深度学习（DL）技术在近年来加速了肽设计过程，但现有的计算工具多专注于单一功能预测（通常是抗菌活性），而对生物膜抑制的预测能力有限。这导致发现同时具有两种功能的候选肽变得极其困难，阻碍了下一代治疗药物的开发。关键科学问题本研究针对以下核心问题进行了深入探索：问题一：如何在同一模型框架中预测多个端点的AMP活性？传统QSAR模型通常采用单一预测目标（如抗菌活性），基于简单的分子描述符或SMILES编码。而肽的序列和功能的多样性使得多目标预测成为独特挑战——需要模型既能捕捉序列模式信息，又能准确回归生物膜抑制的定量数据。问题二：如何有效利用异质数据源进行转移学习？本研究整合了自建的抗生物膜活性数据库（约700个肽，3000个数据点）和三个大规模公开AMP数据库（DRAMP、AI4AMP、DBAASP，共52000余条目）。这些数据来源差异大、标注方式不一、样本分布不均，如何在保证泛化性的同时充分利用这些信息是关键。问题三：设计的肽能否真正优于参照标准？ IDR-1018作为well-characterized的宿主防御肽，已被证明具有广谱抗生物膜活性。新设计肽需要通过实验验证来证明其优越性，这要求模型不仅预测准确，还需识别那些未被充分探索但具有高潜力的序列空间区域。创新点首个多功能Deep QSAR框架：融合前馈网络（定量）和RNN（分类），通过迁移学习实现抗菌和抗生物膜活性的同步预测，打破了传统单功能预测工具的局限创新的双模型整合策略：Model 1的数值输出（生物膜IC50预测）直接馈入Model 2作为额外特征，增强了RNN对序列的理解，避免了简单的模型stacking 大规模数据融合：自建in-house数据库与DRAMP、AI4AMP、DBAASP三大公开库的整合，构建了迄今最全面的AMP训练集，提升了泛化能力实验验证与机制解析的结合：不仅进行体外活性测试（抗菌、抗生物膜、溶血、细胞毒性），还通过微秒级MD模拟精准解析设计肽的膜相互作用，建立了序列-结构-活性的完整链条研究内容核心方法：DeepQSAR双模型框架为了实现同时预测抗菌和抗生物膜活性，该研究设计了一个创新的两阶段深度学习框架。 graph TB A["肽序列 MVLRIKLRLKIR"] --> B["One-hot编码 每个氨基酸→20维向量"] subgraph "Model 1: 定量预测" B --> C["前馈神经网络 FFNN"] C --> D["In-house数据训练 约700肽, IC50数值"] D --> E["生物膜IC50输出 定量预测"] end subgraph "Model 2: 分类预测" B --> F["递归神经网络 BiLSTM"] F --> G["迁移学习 Model 1权重初始化"] G --> H["公开数据集训练 DRAMP、AI4AMP、DBAASP 52000余个肽, 标签"] H --> I["抗菌活性分类 二分类输出"] end E --> J["特征融合 IC50预测 + 序列模式"] I --> J J --> K["最终预测 双功能评分"] K --> L["聚类与筛选 选择top肽合成验证"] 方法详述： 1.数据准备与编码：使用One-hot编码将20种标准氨基酸转换为长度为20的二进制向量，保留了序列信息的顺序性。自建in-house数据集由Kinexus生物信息公司合成的肽阵列组成，约700个唯一肽，每个肽测定了抗MRSA生物膜的IC50值（共3000个数据点）。结合DRAMP（22259肽）、AI4AMP（10716正例+10718负例）和DBAASP（19751活性肽），构建了超过52000条目的训练集。 2.Model 1—前馈神经网络（定量预测）：基于in-house数据集构建，目标是学习肽序列和生物膜抑制IC50的定量关系输入为One-hot编码的肽序列，通过多层前馈网络处理，直接输出IC50数值预测这一模块为后续的RNN提供了生物膜抑制的数值信息基础 3.Model 2—递归神经网络（分类预测）：采用双向LSTM（BiLSTM）架构，针对抗菌活性进行二分类（活性/非活性）关键创新是迁移学习：将Model 1的训练权重初始化到Model 2 使RNN能够继承关于肽序列和生物膜相互作用的知识，学习序列特定的抗菌模式融合了定量的生物膜抑制信息，实现多维度特征学习 4.整合与特征融合：将Model 1的IC50预测输出与Model 2的RNN架构级联（concatenate）使分类器能够利用数值洞察和序列模式来做出更准确的预测。设计优势：在架构层面实现了信息流的有机整合，比简单的模型融合更有优势。数据集与实验方法使用了四个主要数据源： In-house数据：约700个肽，3000个抗MRSA生物膜IC50测定数据 DRAMP：22259个肽，包含综合的已知AMP序列 AI4AMP：平衡数据集，10716个正例加10718个负例 DBAASP：19751个已实验验证的活性肽肽的合成在芹菜素膜阵列上进行（Kinexus），通过如下步骤测定活性：甲氧西林耐药金葡萄球菌（MRSA）用作检验菌株肽浓度范围1-256 μg/mL，测定OD600（生长）和水晶紫吸收（生物膜）使用非线性回归拟合IC50值（50%抑制浓度）模型性能评估图3：Model 1前馈神经网络的训练过程前馈网络的平均绝对误差（MAE）和损失函数都随迭代次数逐步下降，最终在验证集上MAE约1.5，表明模型能够准确预测生物膜IC50的量级。训练和验证曲线显示稳定收敛，未出现过拟合现象。图4：Model 2递归神经网络的分类性能精确度-召回曲线（左）和ROC曲线（右）显示模型在不同阈值下都保持90%以上的精确度，同时维持88%的召回率。ROC曲线的AUC接近1.0，说明模型具有优异的区分活性和非活性肽的能力。定量评估结果为：精确度（正样本）：0.90 召回率（正样本）：0.88 F1得分：0.89（两个类都>0.88，说明性能均衡）这些指标远优于现有工具（见附录对Macrel、AI4AMP和DBAASP的对比）。高通量筛选与设计肽的验证筛选流程：从UniProt数据库中提取了20417个已审核的人类蛋白序列过滤掉长度<100氨基酸的蛋白使用滑动窗口方法（每次移动1个位置）系统性地分割成12-mer肽片段对约50000个候选肽进行了预测，筛选出预测评分最高的100个按照序列相似性进行层级聚类，从每个簇中选择最高评分肽用于化学合成和生物检验图5：设计肽与训练肽的IC50对比使用小提琴图展示了设计肽和训练肽在抗生物膜和抗菌两个维度的IC50分布。中位IC50值为：活性类型训练肽（μM）设计肽（μM）抗生物膜 1.59 0.91 抗菌（浮游） 1.46 1.42 设计肽的生物膜IC50显著低于训练肽，表明模型成功识别并优化了生物膜抑制特性。图6：合成肽的有效性分类 100个设计肽按照相对于参照肽IDR-1018的表现分类： 44肽：抗生物膜活性更强 2肽：仅抗菌更强 25肽：两者都改善但幅度不同 29肽：两种活性都明显优于对照——这是最有价值的候选顶级肽的表征表1：Top 5双功能肽（抗生物膜与抗菌均优）肽ID 序列抗生物膜IC50（μM）抗菌IC50（μM） 10 WKKKGRMRWKWI 0.27 0.74 20 LKIKVHIYRMKR 0.35 1.07 99 MLIRVRKLWRIL 0.24 0.70 40 RARGRKRLVVTI 0.30 1.18 86 RALKKIIKRLCR 0.38 0.70 IDR-1018（对照） VRLIVAVRIWRR 1.42 1.73 最强肽（ID 105, MVLRIKLRLKIR）在抗生物膜上达到0.147 μM，约为IDR-1018的1/10，这代表了迄今最强的AMP生物膜抑制活性之一。其抗菌IC50为1.29 μM，也优于对照的1.73 μM。图7：阵列肽生物膜vs MRSA活性该图展示了Top 5肽及对照肽在肽阵列上的生物膜和浮游菌抗性活性曲线。六个面板分别对应肽ID 10、20、99、40、86和105（对照为IDR-1018），每个肽的剂量-反应曲线清晰显示了其多维度效能，进一步验证了设计肽相比对照的改进。安全性评估为评估毒性风险，对三个代表肽（J20、J28、J39）进行了溶血和PBMC细胞毒性测定。结果表明：溶血IC50：全部>250 μg/mL，显示对红细胞的膜破坏极小 PBMC细胞毒性：J28、J39的IC50 >250 μg/mL；J20为166 μg/mL 治疗窗口：生物膜IC50（MBIC）为1-4 μg/mL，远低于毒性阈值，提供了60-250倍的安全边际这表明设计肽具有良好的生物相容性，适合进一步的临床前开发。分子动力学揭示作用机制通过微秒级MD模拟（GROMACS + MARTINI 3粗粒化力场），对43个设计肽在三种膜系统（革兰氏阳性菌模型、革兰氏阴性菌模型、哺乳动物细胞对照）中的相互作用进行了表征。图8：MD模拟结果——肽-膜相互作用、驻留、选择性和构效关系 A子图 - 时间分辨赖氨酸/精氨酸-膜接触：所有肽在50-100 ns内建立与膜的多价接触，然后维持高位抗浮游设计肽：接触数最高（平均15.4，峰值16.7）双功能肽：中间水平（约13.0）抗生物膜肽：较低但稳定（约10.8） IDR-1018对照：接近抗生物膜肽（11-12）非活性肽：无接触（缺乏赖氨酸/精氨酸） B子图 - 磷酸头基团接触密度分布：磷酸头基团接触密度定义为肽与膜磷脂头基团（PO4）在0.5 nm范围内的接触数，反映肽与膜表面的结合密集程度：抗浮游菌肽和双功能肽：峰值约3.3 抗生物膜肽：峰值约2.3 IDR-1018：约2.3（与抗生物膜类相同）非活性肽：仅0.8（极少接触）设计肽与膜表面的多价磷酸结合密度远高于对照肽，表明肽通过多个精氨酸/赖氨酸残基同时结合多个磷酸基团，形成稳定的多价网络结构，这是膜破坏和细胞溶解的前提条件。 C子图 - 肽-膜中面距离热力图：热力图显示肽在1微秒模拟过程中与膜的轴向距离演变。根据原文，使用GP膜（革兰氏阳性，用于评估浮游菌杀伤）和GN膜（革兰氏阴性，用于评估生物膜抑制）：抗浮游菌肽和双功能肽：在GP膜上保持浅层驻留（z值约-0.5至0 nm），全程稳定抗生物膜肽：在GN膜上保持近表层驻留（z值约-0.5至0 nm），持久不变 IDR-1018：界面驻留但波动更大，不如设计肽稳定非活性肽：远离膜（z值小于-3 nm），无实质接触 D子图 - 选择性评估（细菌膜 vs 哺乳动物膜）：设计肽（所有类）：接触数差（Δ）均值约30 contacts（相对于哺乳动物细胞膜），分布集中 IDR-1018：类似正偏移（25-30范围）非活性肽：接近零（无选择性） E子图 - 构效关系（插入深度vs活性）：肽膜插入深度与活性的相关性分化明显：抗菌活性（浮游,革兰氏阳性）： Spearman相关：ρ = 0.69, p = 0.0045（显著正相关）趋势：浅层插入与低IC50（高活性）强烈关联解释：保持在浅表的肽能更有效地破坏膜结构，形成孔隙或地毯溶解；深度插入反而降低活性抗生物膜活性（革兰氏阴性）：相关性：无显著相关（p > 0.05）含义：生物膜抑制机制不依赖于膜插入深度，可能依赖于膜表面捕获后的胞内信号干扰（如ppGpp、quorum sensing） Q&A Q1: 为什么One-hot编码而不用其他肽特征（如BLOSUM矩阵、物化性质）? A1: One-hot编码保留了序列的精确顺序信息和完整的氨基酸恒等性，这对RNN学习局部和全局序列模式至关重要。物化性质或BLOSUM会损失肽的某些特异性特征（如某个Cys位置的disulfide潜力）。此外，One-hot编码与循环网络的设计在概念上更贴切——RNN本身就是为处理离散序列而优化的。 Q2: Model 1和Model 2之间的迁移学习具体如何工作? A2: Model 1在in-house抗生物膜数据集上训练，学习了肽序列到IC50（数值）的映射。其中间层权重编码了肽的生物膜亲和力。Model 2初始化时直接复制这些权重到BiLSTM的嵌入层，使RNN一开始就知道哪些序列特征与膜相互作用相关。后续在大型AMP分类数据集上微调时，RNN保留了这些初始化的特征，同时学习抗菌活性的额外模式。这比随机初始化快速得多，也减少了过拟合的风险。 Q3: 为什么选择12-mer作为设计肽的长度? A3: 12氨基酸是最小可行的功能肽长度（short peptides），足以形成α-螺旋或其他二级结构，但避免了合成和成本的复杂性。UniProt滑动窗口方法系统性地生成了大量候选，而12-mer的长度也是文献中well-characterized肽（如IDR系列）的标准。这样既保证了生物学意义，也便于后续的优化。 Q4: 设计肽对其他常见致病菌（如绿脓杆菌、肠杆菌）的活性如何? A4: 论文中仅报告了对MRSA的测定数据（革兰氏阳性）。对广谱活性的验证（包括革兰氏阴性菌）计划在后续研究中进行。MD模拟显示肽在革兰氏阴性模型膜上也有强劲的结合，但体外验证仍是必要的——这也是论文Discussion中强调的局限性。关键结论与批判性总结研究意义与影响开创性的多目标预测框架：首次实现在单一模型中同时预测抗菌和抗生物膜活性，为多功能AMP设计树立了新范式高实用性的设计管道：从50000个候选肽到100个合成肽，再到29个双功能增强肽，展现了29%的实现率，远超随机合成强有力的实验验证：不仅测定了生物活性，还进行了毒性评估和分子动力学模拟，建立了序列-结构-活性的完整理解开源资源分享：代码、数据和模型已上传GitHub，便于学术界复现和扩展存在的局限性单一菌株验证：实验仅在MRSA上进行，对其他常见致病菌（绿脓杆菌、鲍曼不动杆菌等）的广谱活性需进一步验证体内模型缺失：所有活性数据来自体外测定（肽阵列），动物模型和临床相关性评估尚待进行机制理解仍需深化：虽然MD模拟提供了膜相互作用的线索，但关于肽的具体杀菌模式（是否形成孔隙、地毯机制还是其他）仍需要补充生物物理学实验长期稳定性未评估：肽的血清稳定性、给药形式和体内代谢还没有系统研究未来研究方向扩展菌种覆盖：针对多重耐药菌（MDR）、泛耐药菌（XDR）进行活性测定，包括临床分离株动物模型验证：利用小鼠感染模型评估体内疗效和毒性，为临床前开发奠定基础结构优化循环：基于MD洞察，进行理性的点突变和截断，进一步提升特异性和效能 AI模型迭代：整合更多数据源（如微生物组数据、宿主防御肽文献），开发下一代多参数预测模型

Machine Learning & AI · 2025-11-09

DeepQSAR抗菌肽发现——技术细节与扩展数据

DeepQSAR抗菌肽发现——技术细节与扩展数据完整数据集描述 In-house抗生物膜数据库约700个唯一肽(多数为12-16氨基酸)，由Kinexus生物信息公司通过肽阵列合成(SPOT-array technology)。每个肽针对MRSA进行了2折串联稀释测定，产生了3000个IC50数据点。数据特征： IC50范围：0.09-50 μM(中位数~1.5 μM) 肽长度分布：8-18氨基酸为主，12-14mer最多化学修饰：C端酰化(标准AMP格式)，某些肽含有非标准氨基酸如Nle(仲亮氨酸)、Trp衍生物 DRAMP 3.0 (Database of Antimicrobial Peptides) 包含：22259肽条目来源：已发表文献中已知的AMP，涵盖细菌、真菌、植物、昆虫、哺乳动物来源标注：二进制(活性/非活性)，基于文献报道的MIC或IC50阈值优势：高覆盖度，包括多种菌种的活性信息(不仅限MRSA) 局限：某些条目可能基于定性描述而非精确数值 AI4AMP (Antimicrobial Peptide Predictor) 包含：平衡数据集，10716正例(已知活性AMP) + 10718负例(非AMP序列) 来源：公开AMP数据库与生成的非AMP背景特点：经过特征工程优化(physicochemical property encoding) 用途：在本研究中主要用于验证和外部基准测试性能(来自原始论文)：精确度~90%，泛化性好 DBAASP v3 (Database of Antimicrobial Activity and Structure of Peptides) 包含：19751活性肽，附带实验验证的结构和活性数据数据质量：高，仅收录已发表、经实验验证的肽附加信息：包含部分肽的3D结构、膜交互描述符(如hydrophobic moment、charge distribution) 覆盖范围：广谱菌种(需要标准化处理) 数据集组合与预处理四个数据源合并后，采用如下预处理步骤：去重：基于精确序列匹配移除重复肽长度过滤：保留8-20氨基酸，去除超短(<8aa)或超长(>20aa)肽，使分布更均匀编码规范化：将所有非标准氨基酸(如Nle、Orn)映射到最相近的标准氨基酸(Leu、Lys) 标签一致化：对于在多个库中重复出现的肽，采用多数票法决定标签；如信息矛盾则排除数据平衡：对于分类任务(Model 2)，使用SMOTE或加权损失函数处理类不平衡最终数据集规模：约52000个条目(去重后)，其中正例(活性AMP)约占55% 详细方法学 Peptide Clustering算法为减少合成肽的冗余性并保证序列空间的多样性覆盖，使用了层级聚类(Hierarchical Clustering)：相似性计算：对所有候选肽对进行全局序列比对(Needleman-Wunsch算法)，计算相似度矩阵聚类方法：AgglomerativeClustering(sklearn)，使用欧式距离和完全链接(complete linkage) 聚类数：设置为100，对应最终的合成肽数量代表选择：从每个簇中选择模型预测评分(combined score)最高的肽优势：确保了100个合成肽均匀分布在5万个候选肽的序列空间中，最大化了发现新功能肽的概率分子动力学模拟参数软件和力场： MD引擎：GROMACS 2021.5 粗粒化力场：MARTINI 3.0(适合微秒级长模拟) 初始结构制备：α-螺旋(PeptideBuilder)→ martinize2转换膜系统构建：革兰氏阳性菌(GP)膜：POPG:Cardiolipin = 3:1(代表革兰氏阳性菌的外膜) 革兰氏阴性菌(GN)膜：POPE:POPG:Cardiolipin = 6:2:1(代表革兰氏阴性菌的内膜) 哺乳动物对照(MAM)：100% POPC(代表人类红细胞膜，用于评估选择性) 模拟条件：系统尺寸：~15×15×35 nm³ 离子浓度：0.15 M NaCl 温度：323 K(50°C，适合MARTINI) 压力：1 bar(semi-isotropic) 时间步长：20 fs(粗粒化允许) 运行时间：1 μs/复制本，3个复制本/肽/膜(共9 μs/肽) 模拟后分析：肽-膜接触数(0.5 nm cutoff) Lys/Arg-磷酸基团相互作用(多价结合) 肽中心质量(COM)与膜中面的距离(评估插入深度) RMSD/RMSF(结构稳定性) Spearman相关分析：深度 vs log(IC50)，评估插入-活性关系结果验证：使用MDAnalysis (Python)进行轨迹解析，所有时间序列数据经3个复制本平均后，仅用未平滑数据进行统计(只有图中的类别均值经高斯平滑σ=5) Top 10肽完整列表 Table 1: 最强10个抗生物膜肽肽ID 序列抗生物膜IC50(μM) 说明 105 MVLRIKLRLKIR 0.147 最强，约IDR-1018的1/10 39 RGFVRLKKWFNI 0.23 含Trp，可能增强膜插入 99 MLIRVRKLWRIL 0.24 双功能候选(也在抗菌Top 10) 10 WKKKGRMRWKWI 0.27 高Lys密度，强静电结合 59 FRVCYRGICYRK 0.30 含Cys，可能形成disulfide 40 RARGRKRLVVTI 0.30 双功能候选 28 FRVCYRGICYRR 0.35 精氨酸富集，膜结合强 20 LKIKVHIYRMKR 0.35 双功能候选，含疏水残基 86 RALKKIIKRLCR 0.38 双功能候选，平衡疏水-亲水 IDR-1018(对照) VRLIVAVRIWRR 1.42 参照标准 Table 2: 最强10个抗菌(浮游)肽肽ID 序列抗菌IC50(μM) 说明 99 MLIRVRKLWRIL 0.70 最强，双功能 86 RALKKIIKRLCR 0.71 双功能，高效率 10 WKKKGRMRWKWI 0.74 双功能 102 VLRIGWILWRIS 0.84 高疏水性 62 RRRAKGRIRLIV 0.89 Arg富集 100 LLILWRKLWILR 1.02 疏水性主导 2 GRMRWKWIKKRI 1.03 基础设计 20 LKIKVHIYRMKR 1.07 双功能 33 GLKSFARVLKKI 1.15 序列多样性 40 RARGRKRLVVTI 1.18 双功能 IDR-1018(对照) VRLIVAVRIWRR 1.73 参照标准关键观察： 5个肽同时出现在两个Top 10中(ID 10, 20, 40, 86, 99)，这些是最有价值的候选抗生物膜肽倾向于高Lys/Arg密度和Trp含量(增强膜亲和力) 抗菌肽显示更多的疏水残基组合(增强膜插入和破坏能力) 与其他AMP预测工具的对比分析三种现有工具的性能本研究在29个实验验证优于IDR-1018的肽上，对比了三个广泛使用的AMP预测工具： Macrel (AMP Mining in Genomes and Metagenomes) 原理：22个物化描述符(电荷、疏水性矩、二级结构倾向等) + 传统ML分类器结果： 29个验证肽的预测评分范围集中在0.50-0.60区间接近默认阈值(0.50)，导致低区分度假阴性率高，精确度~50%，召回率同样低局限：Macrel设计用于基因组/宏基因组挖掘(未知序列背景)，对已知AMP数据库的表现不理想 AI4AMP (Antimicrobial Peptide Predictor) 原理：物化性质编码 + 卷积神经网络(CNN) 性能：在定性上，对多数29个肽给出了高AMP概率评分但当以IDR-1018的评分作为分类阈值时，精确度和召回率均~50% 混淆矩阵显示该阈值选择不当，导致过多假阳性或假阴性优点：模型本身性能不错，但对于高活性肽的定量区分有限 DBAASP Predictor 原理：三个膜交互相关描述符(hydrophobic moment、charge density、membrane-depth potential) 结果： 29个肽中，正负预测几乎均分(接近50:50) 基于这三个特征的区分能力有限虽然这些描述符在AMP设计中重要，但单独使用不足以预测多功能性反思：强调了序列-序列相关性(通过RNN捕捉)的重要性，单纯依靠物化特性难以抓住功能差异 DeepQSAR的优势总结指标 Macrel AI4AMP DBAASP DeepQSAR 精确度 ~50% ~50% ~50% 90% 召回率低低-中低 88% F1得分 <0.5 0.40-0.50 <0.5 0.89 多目标预测否否否是泛化性有限中等一般优异计算成本低中低中-高毒性与安全性数据溶血活性三个代表肽(J20、J28、J39)在人红细胞上的溶血测定：图S1展示的浓度-反应曲线表明： J20 (LKIKVHIYRMKR)：IC50 >250 μg/mL(上限未达)，极低溶血风险 J28 (FRVCYRGICYRR)：IC50 >250 μg/mL J39 (RGFVRLKKWFNI)：IC50 >250 μg/mL 解释：即使在256 μg/mL(最高测试浓度)，红细胞溶解也<10%，说明对宿主细胞膜的破坏最小。相比之下，许多阳性对照AMP在10-50 μg/mL即表现出明显溶血。 PBMC细胞毒性外周血单核细胞(PBMCs)对肽的耐受性评估：数据来自Table S1： | 肽 | PBMC IC50(μg/mL) | 与MBIC的倍数差 | 评价 | |—-|—————-|————-|——| | J20 | 166.1 | 41-166倍 | 中等毒性 | | J28 | >250 | >62.5-250倍 | 低毒性 | | J39 | >250 | >62.5-250倍 | 低毒性 | 最小生物膜抑制浓度(MBIC)：1-4 μg/mL(与IC50测定相同条件) 治疗窗口：毒性IC50 / MBIC = 62-250倍，足以支持临床前开发(理想值通常>10倍) PBMC毒性的分化原因： J28/J39高度耐受，可能与其特定的Cys、Tyr组成(可能稳定膜界面而不破坏)有关 J20的中等毒性可能源于其高Lys密度，在高浓度时对人细胞也有一定膜扰动补充图表详解 Figure S1: 溶血活性曲线左图为Hemolysis，右图为PBMC Cytotoxicity，横轴肽浓度(log scale, 0.6-256 μg/mL)，纵轴为百分比溶解/毒性。三条曲线代表J20(蓝)、J28(红)、J39(绿)。关键发现：三肽在1-256范围内溶血均<15%，PBMC毒性中J28/J39始终<10%，J20在128-256 μg/mL才明显上升。 Figure S2: Macrel预测分布柱状图显示29个验证肽的Macrel评分分布。评分集中在0.50-0.60，大多聚集在单一柱子(34.5%)，显示低区分度。 Figure S3: AI4AMP概率评分曲线图显示概率分布，大多肽评分在0.7-1.0(高AMP概率)，但相对于IDR-1018基准(虚线)的区分不足。 Figure S4: DBAASP混淆矩阵左侧混淆矩阵显示，DBAASP的预测与实际结果的吻合度低，正负预测几近等分。数据获取与复现所有数据、代码和预训练模型已公开发布在GitHub仓库：地址: https://github.com/chill-bear/peptides 内容： data/: 原始IC50数据(CSV)、聚类结果、验证肽序列 models/: 预训练的Model 1和Model 2权重(HDF5格式) scripts/: One-hot编码、模型训练、超参数调优、图表生成代码(Python) md_simulations/: MD设置文件(.top, .gro, .mdp)、轨迹分析脚本复现步骤： Clone仓库并安装依赖(TensorFlow, scikit-learn, MDAnalysis等) 运行预处理脚本整合四个数据源使用提供的超参数训练Model 1和Model 2 对自有候选肽进行预测和聚类用GROMACS运行MD模拟，使用MDAnalysis脚本分析注意：MD模拟计算密集，建议使用GPU集群或HPC资源；单肽1 μs的三复制本约需2-4小时(单CPU)。

Machine Learning & AI · 2025-11-09

人工智能必须更科学：让AI与科学方法兼容

人工智能必须更科学：让AI与科学方法兼容本文信息标题: 人工智能必须更“科学”：让AI与科学方法兼容作者: Peter V. Coveney, Roger Highfield 发表时间: 2024年7月27日单位: University College London（英国）；University of Amsterdam（荷兰）；Ludwig Maximilian University of Munich（德国）；Science Museum London（英国）；University of Oxford（英国）引用格式: Coveney, P. V., & Highfield, R. (2024). Artificial Intelligence Must Be Made More Scientific. Journal of Chemical Information and Modeling, 64(13), 5739–5741. https://doi.org/10.1021/acs.jcim.4c01091 摘要随着人工智能在科研中的作用不断扩大，作者评估了其对研究实践的影响，指出当前一代AI缺乏可重复性、缺乏透明性、缺乏客观性以及缺乏机制层面的理解。文章强调，科学的核心在于经验与理性的统一，通过理论与实验的循环推动知识进步；而当下许多AI系统更多停留在统计拟合与相关性层面，难以提供可解释的不确定性与因果机制。作者以AlphaFold与机器学习势能（MLIP）为例，比较了基于物理的模型与纯数据驱动方法在不确定性量化与参数可解释性上的差异；讨论了生成式方法与大模型在再现性、数据依赖与人类偏见方面的局限。为使AI真正惠及科学研究，作者主张发展与科学方法完全兼容的AI形态，包括可解释AI、因果AI与与物理定律耦合的Big AI。核心结论 AI要服务科学，必须满足可重复性、透明性、客观性与机制解释单纯基于相关性的黑箱模型难以量化不确定性，也难以支撑科学理解与物理约束、可解释机制和因果推断相结合的AI更接近科学方法科学共同体需要对AI提出更高标准，而非被炒作与功利目标牵引全文翻译人工智能在科学中的作用与日俱增。我们在此评估其对研究的影响，并指出AI常常缺少可重复性、透明性、客观性与机制层面的理解。要确保AI真正造福研究，我们需要发展与科学方法完全兼容的AI形式。人工智能正在深入科学，尽管它距离媒体标题中更离奇的宣称还有很长的路。但它是否改变了我们对科学的理解？答案是一个明确的不会。在许多方面，当前一代AI甚至谈不上科学。关于科学的确切定义，哲学家与科学史家存在分歧，但普遍共识是：科学是观察与理性的融合。极端经验主义（只有数据没有理论）与极端理性主义（只有理论没有数据）早在几个世纪前就被摒弃了。取而代之，科学家将理论用于做出预测并引导新实验，通过实验产出数据以塑造理论，周而复始。可重复性被赋予极高权重，这保证了科学的客观性，也使其区别于其他人类活动。几百年前，培根用“蜜蜂”比喻科学家如何滋养理性与经验的共生。随着计算机兴起，另一种科学形态兴起：模拟能够给出可操作的预测。将描述我们对大气与海洋理解的数学模型，与来自卫星与地面站的数据结合，就能进行挽救生命的天气预报。面向未来的最具代表性的例子，是人体的数字孪生。如今我们进入计算的新纪元，AI的重要性不断上升。然而少有人记得此前的炒作与低谷周期。我们也常忘记，人类 20 瓦的大脑能力依然惊人，哪怕与耗能高出一百万倍的百亿亿次超级计算机相比亦然。令人尴尬的是，关于“自然智能”的公认定义并不存在，那么我们所谓的“AI”究竟指什么？我们对计算机寄予了过度信任。尽管有这些问题，美国大型科技公司仍在做出大胆甚至夸张的宣称。它们有一个压倒性的动机：盈利。大型机构因害怕错过风口而争相拥抱AI。政府也乐于上车，指望AI让其更有效率、更有说服力。一些最狂热的追随者宣称，计算机算法可以超越人类智能，机器能够接管人类的许多职能。具有讽刺意味的是，其中一些最夸张的说法来自那些依赖大规模众包劳工的公司——贝索斯称之为人工的人工智能或伪AI，用来帮助AI完成繁琐却棘手的任务。人们懒于思考地假设AI也可以做科学。但机器学习方法过去与现在本质上都是模式发现者，旨在解决工程技术问题。它们的起源更多与情报与安全部门有关，目标是让计算机从海量数据中筛选线索，而非让科学家理解自然。在这个领域AI当然能发挥作用。最著名的例子或许是蛋白质结构预测软件AlphaFold，它绘制了几乎所有已知蛋白的“结构宇宙”。对分子生物学家来说，AlphaFold是X射线晶体学的快速替代。和许多机器学习一样，AlphaFold最擅长处理它被训练“见过”的模式。但由于本质上接近“查找表”，我们很难判断它在什么情况下可靠、在什么情况下会失效。换言之，量化它的不确定性很困难。另一个热门话题是用AI学习相互作用势能（MLIP），以供经典分子动力学仿真。决定这些势函数的形式或参数化是繁琐的，因此有人提出用AI从尽可能大的数据集中学习从原子性质到分子势能或其他量的映射。这会得到一个拥有几十万个拟合参数的神经网络——这些参数是神经元之间的连接权重。同样地，量化这类MLIP的不确定性很难，原因有二：参数数量过多，且这些参数只是拟合参数，没有内在的物理化学含义。事实上，我们对分子相互作用的科学理解已经很成熟。因而也可以采用基于物理的相互作用势，其项具有明确的科学意义，参数数量从数百到几千不等。借助可扩展的不确定性量化方法，人们发现通常只有 10 到 20 个力场参数对目标性质具有显著影响。换句话说，我们能够获得哪些参数重要的真实洞见与理解。相比之下，我们很难理解MLIP或AlphaFold内部发生了什么。这些系统需要从几十万到上亿级的参数。一方面，天文数量级的参数解释了为何机器学习能够拟合大量任意关系；另一方面，这也导致其不可靠，且无法给出令人满意的科学解释。此外，它们通常在选定的数据集上训练，再以较小的验证集做评估。但换一个数据集，它们是否仍然有效？很多时候并不行，因为此时模型在做外推而非内插。生成式方法存在类似问题，且更依赖随机数发生器，因此更进一步地说，代码每次运行都会给出不同答案。这让人联想到分子动力学：一次性模拟不可复现。可重复性还面临其他挑战，包括获取底层数据与机器学习算法的渠道，这些可能被保密，且有时还需要大量算力的支持。科学追求的是理解，而AI依赖的是统计推断。这并非错误本身，但请记住：相关并不等于因果。借助遍历性、拉姆齐理论与算法信息论，可以证明：大数据库中会包含任意多的相关性，且相关性的数量随着数据量而快速增加，而非随着数据“本质”的改变而变化。即使在随机生成的超大数据库中也会涌现大量相关性，这意味着大多数相关性是伪的。要从中筛出真正的相关性，需要科学方法。尽管计算机创造了“客观性”的表象，人仍然在AI的建立与使用中居于核心。大多数情况下，为了训练AI，你必须预先定义AI将把答案归入的类别。但任何这种分类都是任意的、歧义丛生，反映开发者自身的动机：人类偏见被烘焙进AI之中，在训练之前就已存在。 AI通常建立在一系列也体现人类选择的假设之上，而非源于科学。例如，几乎所有机器学习算法都假设内部数据分析变量之间的关系是平滑可微的。这纯粹出于方便，便于使用线性代数、标准软件库以及GPU加速。然而，AI与机器学习确实能产生各种非线性预测。这是因为在以线性代数为主的同时，它们加入了将输入映射到输出的非线性激活函数。如果我们自我安慰地假定世界处处可微，就可能进一步假定：在浮点数表示上从双精度退到半精度乃至四分之一精度牺牲一点精确度无关紧要，或者高斯统计的钟形曲线是无所不能的。在真实世界中，这些假设通常不成立。尖锐的不连续广泛存在，这是非线性行为的标志。归根结底，世界高度是非线性的。因为非线性科学直觉上难以把握且往往不可微，人们会倾向于回避它。非线性的极端表现之一是：舍入误差会在数字计算机中引发深远影响——这一点常被忽视。可以理解，为什么一些科学家把AI当作替代培根蜜蜂的方案：在诸如生命科学这样的复杂领域，AI对答案的追逐而非对理解的追求，的确具有诱惑力。但在医疗等领域，这是不可接受的。我们必须理解治疗方案如何起作用，且消除其内在偏见——不仅是训练数据的代表性问题，还包括AI系统在设计之初的偏见。一些人对新一波基础模型的兴奋在增长。这些通用目的AI被宣传为可以通过类似聊天界面的交互来解决科学家的问题。所谓AI4Science的例子包括用于分子分布的DiG、无机材料设计的MatterGen、以及目标感知分子生成的TamGen。当这些模型雨点般出现时，我们不应放弃科学的堡垒。相反，是时候要求AI与机器学习遵循最高标准的科学探索。我们需要把重点放在可重复性上，更重要的是强调提供机制洞见与理解的理论概念与方法。 AI无疑能给科学带来巨大益处，但我们绝不可背离三百年来经受考验的理性与经验的可重复融合。一条可行路径是可解释AI，另一条是我们应拥抱因果AI；前提是AI能够以科学术语解释其内部机理与预测。第三条路径是Big AI，即将机器学习与基于物理的方法结合，使AI受自然规律约束。在这些语境下，二者的优缺点相辅相成，在药物发现等任务中结合更可能奏效。科学是人类最珍贵的创造之一，比以往任何时候都更需要捍卫与阐明。培根的蜜蜂正受到AI的威胁，而它们需要繁盛。AI必须遵循科学方法。小编锐评： AI当然非常有用，我们天天都在高强度使用。但我讨厌的是追逐风口就能盈利这种环境，某些“宣讲/本子不带AI就会被拒”的现象之下，是舍本逐末，是人类的非理性。至于在科学领域上的应用，需要明确地定义该模型的使用范围，严格地遵守规范（如OECD Principles）。做科学最终是要回到逻辑上的，也许真正的可解释性不存在或只能从数学上理解，那它们也永远是做engineering的工具或人类的智能助手。

Machine Learning & AI · 2025-11-07

生成式主动学习+物理模拟：详细结果分析（附录）

TNKS2靶点详细结果与补充分析（附录）本附录包含TNKS2靶点的详细figure描述、图表解读和补充分析，是主文档的延伸。 TNKS2详细结果分析代理模型质量对比图9：TNKS2中代理模型预测精度的提升对比了批大小为100、500和1000分子的ChemProp代理模型对ΔG的预测与ESMACS计算值，展示选定的GAL迭代步骤。图中插入R²系数及Spearman/Kendall秩相关系数（ρ和τ）。每次迭代中所有代理模型预测和ESMACS计算的平均ΔG值用红色圆圈标示。所有能量值单位为kcal/mol。完整的所有训练批大小和迭代步骤的结果见补充图S8。与3CLpro相比，TNKS2的代理模型质量明显更优。结合自由能分布与收敛性图10：TNKS2中结合自由能分布的演变展示了TNKS2在选定GAL迭代轮次和不同批大小（100、500、1000）下，计算得到的ΔG分布。10000个种子化合物的初始分布用绿色显示（批次0）。27个实验验证的同系物的ΔG分布用红色显示，用于对比。与3CLpro相比，TNKS2的收敛速度极快，仅需单次迭代甚至部分批次就可实现显著改善。所有批大小和迭代步骤的完整结果见补充图S9。多维性能指标图11：TNKS2的多维分析（a−d）展示了四个关键指标的演变： (a) 结合自由能分布：各批大小下，累积生成化合物库中ΔG最低的100个化合物的ΔG分布演变。随迭代逐步向更低能量移动。 (b) Tanimoto相似度分布：所有分子对的相似度分布，反映生成化合物的结构多样性。越往较大值延伸表示结构越相似。 (c) 结构簇数：Butina算法（相似度截断0.5）检测到的结构簇数，随迭代递减，体现化学空间收敛。 (d) 与初始库的差异度：生成高分子与初始27个实验同系物间的Tanimoto相似度分布，多数值<0.3，证明了真正的结构创新而非简单的同系物延伸。化学结构创新图12：TNKS2的代表性化合物结构展示了ΔG最低的代表性化学结构，来自TNKS2的精选结构簇。选择了8个最多人口的簇，以及4个ΔG最低的簇。聚类分析基于各迭代后积累池中ΔG最低的100个化合物，对应(a) n=100和(b) n=1000的GAL训练批大小。值得注意的是，尽管初始样本仅基于一个小的同系物群体（共享喹唑啉酮支架），生成的高分子却体现了多种不同的化学支架，包括腈基、桥环和其他特殊取代基。这说明GAL有效地突破了初始库的限制，发现了本质上新颖的分子。化学空间探索图13：TNKS2的化学空间探索（t-SNE可视化）使用t-SNE将所有批大小组合数据的Morgan指纹投影到二维空间，展示GAL过程中不同训练批大小所遍历的化学空间。迭代0（黄色）：来自10000个初始化合物实验配体（浅蓝色）：27个实验验证的同系物，聚集在一个极小区域内生成分子（按不同颜色编码）：大幅扩展到远离初始库的新化学空间，形成多个分离的簇这一特征与3CLpro形成对比，反映了封闭口袋对化学空间探索范围的约束。配体结合模式分析图14：TNKS2中四个代表性高亲和力配体的结合模式展示了(a−d)四个精选配体与TNKS2结合口袋的三维相互作用。配体来自最大(1000, a,b)和最小(100, c,d)的训练批大小。与3CLpro明显不同的是，TNKS2的封闭结合口袋限制了结合模式的多样性。生成的配体采用更加一致的结合策略，但同时能够通过精细的取代基优化（如腈基定位）来逐步提升亲和力。这解释了为什么TNKS2的代理模型质量更优——1D SMILES与3D结合姿态的对应性更明确。计算效率详细分析图15：TNKS2中计算效率指标展示了GAL对TNKS2的计算效率η（定义为每次Oracle调用发现的结构簇数），按不同的训练批大小着色，各迭代步骤后计算。参数设定： ΔG max = -35 kcal/mol：强调多样性探索（命中发现阶段） ΔG max = -40 kcal/mol：强调亲和力优化（先导优化阶段）相似度截断(s cutoff)：分别为0.7和0.3 与3CLpro相比，TNKS2的效率在n≥500时提升最显著，而n=100在多数探索情景下表现最优。这反映了靶点特性与批大小参数的耦合关系：封闭口袋需要较大批大小来保证代理模型收敛，但过小的批大小反而能在探索阶段保持多样性。靶点对比的深层洞察 3CLpro vs TNKS2：结构与函数的对话维度 3CLpro（开放口袋） TNKS2（封闭口袋）蛋白结构大型、多区域、分叉狭窄、单一、受限配体结合模式高度多样（>5种主要模式）一致性强（1-2种主导模式）代理模型质量初期低（ρ~0.1），后期中等（ρ~0.6）早期高（ρ>0.7），保持稳定收敛速度缓慢（需7轮迭代）快速（需1-3轮迭代）化学空间探索广泛分散，多个独立簇相对集中，逐步深化最优批大小 n=250（小批，多迭代） n=100或n≥500（分化策略）特征官能团多样化重复出现特定基团（腈、桥环）为什么TNKS2更优？结构约束性强：狭窄口袋建立了SMILES→3D结合姿态的清晰映射，使ChemProp能有效学习配体结构与亲和力的关系数据质量高：初始27个同系物来自实验验证，而3CLpro的10000个化合物基于Docking评分（可能含假阳性）样本多样性：虽然初始库小，但通过GAL生成的化合物跨越多个化学支架，为代理模型提供了足够的训练信号最优化目标清晰：口袋的拓扑局限性使得优化目标明确（特定基团定位），而非3CLpro的多模式竞争补充技术细节 BindingDB增强实验研究还探索了用BindingDB中的TNKS2 IC50数据增强代理模型。结果表明：代理模型质量与未增强版本相当（补充图S12）平均Tanimoto相似度基本相同（0.16 vs 0.15） BindingDB数据的增益有限这反映出：当已有高质量同系物数据时，额外的异源数据可能引入噪声而非增益。设计实验时应谨慎权衡。药物性评估研究观察到大批大小(n≥700)的生成分子具有更高的QED评分（补充图S14），表示更高的”药物性”。但同时也发现某些分子含有非典型药物官能团（补充图S12b），需要额外的合成可行性评估。失败案例分析论文未详细讨论failed ESMACS runs的处理，但在实际应用中应：设置收敛标准：如果10副本中<70%收敛，标记为失败重新运行策略：失败分子可重新评估或标记为”不可评估” 反向使用：某些失败信号可能反映分子的固有不稳定性，可用于过滤与传统方法的成本比较虽然论文未给出详细的RBFE（相对结合自由能）成本对比，但可估算： ESMACS单分子评估：~5分钟（GPU）或~20分钟（CPU） Docking单分子评估：~秒级，但精度差传统HTS（实验）：~天级，且成本~$1000-10000/化合物 GAL的优势在于用Oracle调用（~100-1000次）代替盲目筛选（百万级），在超算支持下成本可控。计算效率与实现该研究在Frontier超算（美国橡岭国家实验室，全球首台艾字节级超算）上部署：总计算量：~17,440（3CLpro）+ ~22,000（TNKS2）次ESMACS计算 ≈ 2毫秒MD 墙钟时间：单个GAL迭代（整批化合物评估）仅需50分钟（GPU使用率：150 ns/day/AMD Instinct MI250X）并行度：所有化合物同步评估，充分利用超算的并行性能协议精简：采用粗粒化ESMACS（10副本而非标准25副本），牺牲少量精度换取>2倍加速这一效率水平在实验室规模GPU集群上难以实现，说明高性能计算与AI算法的结合是实现GAL大规模应用的必要条件。推荐的后续研究多轮集成强化学习：运行多个独立REINVENT进程，用多个ChemProp模型集成，量化随机性对多样性的贡献结构感知的代理模型：将蛋白质结构编码进ChemProp（如蛋白质embedding或接触图），突破目前的”仅配体”限制多保真度学习：结合便宜的Docking与贵的ESMACS，设计多保真度代理（本研究BindingDB实验表明有限效益，可重新设计）实验验证：选中几个GAL生成的高分子进行体外实验（细胞膜透性、激酶抑制）和晶体结构验证

Machine Learning & AI · 2025-11-07

Image-based Molecular Representation Learning in Drug Development: A Comprehensive Review of Methods, Implementation, and Applications

Machine Learning & AI · 2025-11-04

图论遇上机器学习：用拓扑指数预测抗病毒药物性质

图论遇上机器学习：用拓扑指数预测抗病毒药物性质本文信息标题: A Graph-Based Machine Learning Framework for Predicting Physicochemical Properties of Antiviral Drugs via Topological Indices（基于图的机器学习框架：通过拓扑指数预测抗病毒药物的理化性质）作者: Irfan Haider, Muhammad Ahsan, Muhammad Kamran Siddiqui, Mazhar Hussain等发表时间: 2025年单位: COMSATS大学（巴基斯坦）、印度中央大学、中东技术大学（塞浦路斯）等引用格式: Haider, I., Ahsan, M., Siddiqui, M. K., Hussain, M., Ali, F., Ahmad, S., & Kanwal, S. (2025). A Graph-Based Machine Learning Framework for Predicting Physicochemical Properties of Antiviral Drugs via Topological Indices. Journal of Chemical Information and Modeling. https://doi.org/10.1021/acs.jcim.5c00117 源代码: https://github.com/IrfanHaider/graph_based_antiviral_drugs.git 摘要本研究提出了一个创新的两阶段机器学习框架，用于预测抗病毒药物的理化性质。该框架将分子建模为图结构（原子为节点，化学键为边），利用拓扑指数作为桥梁连接分子结构与性质。第一阶段从SMILES字符串预测六种拓扑指数（M1、M2、ABC、Randić、Harmonic、Forgotten），第二阶段利用这些指数预测六种关键理化性质（摩尔折射率、极性表面积、极化率、摩尔体积、分子量、复杂度）。在59种抗病毒化合物数据集上的测试显示，该方法实现了极高的预测精度，分子量预测的$R^2$达到0.9950，极化率预测的$R^2$达到0.9891，显著优于传统QSPR方法，为药物设计提供了高效的计算工具。核心结论两阶段框架创新：通过拓扑指数作为中间表征，将分子结构与性质预测解耦，提高了模型的可解释性和准确性高预测精度：六种理化性质的预测$R^2$均超过0.97，其中分子量、极化率和摩尔折射率的$R^2$接近0.99 拓扑指数优势：揭示了不同拓扑指数与理化性质的相关性，M1和Forgotten指数对多数性质具有强相关性广泛适用性：覆盖HIV、乙肝、流感、COVID-19等多种抗病毒药物，验证了方法的普适性计算效率提升：相比传统量子化学计算和实验测定，显著降低了时间和成本背景抗病毒药物的开发是全球公共卫生的核心挑战。从HIV到COVID-19，病毒性疾病始终威胁着人类健康。传统的药物发现依赖于实验筛选和化学合成，这是一个耗时、昂贵且试错率高的过程。一个新药从实验室到临床往往需要10-15年，成本高达数十亿美元。近年来，计算化学和机器学习的兴起为药物设计开辟了新路径，通过定量构效关系（QSPR）建模，可以在虚拟空间预测化合物的性质，大幅缩短研发周期。然而，现有的QSPR方法面临诸多挑战。一方面，分子描述符的选择和计算复杂度是关键瓶颈。传统方法使用数百种分子描述符，导致维度灾难和过拟合风险。另一方面，黑箱模型的可解释性不足限制了其在药物设计中的应用。研究者难以理解模型预测背后的化学机制，无法指导结构优化。此外，数据集规模和质量也制约着模型性能。高质量的实验数据稀缺且昂贵，如何在有限数据下训练可靠模型是普遍难题。拓扑指数作为一类特殊的分子描述符，提供了一种简洁而强大的分子表征方式。它们基于图论，将分子拓扑结构编码为数值，能够捕捉分子的连接性、分支度、环状特征等关键信息。相比传统描述符，拓扑指数计算简单、物理意义明确，且在QSPR建模中表现出色。本研究正是基于这一优势，探索拓扑指数在抗病毒药物性质预测中的潜力。关键科学问题如何建立分子结构与理化性质之间的高精度映射？传统QSPR模型依赖大量描述符，本研究探索能否通过少量拓扑指数实现同等或更高的预测精度。拓扑指数能否作为有效的中间表征？研究验证从SMILES到拓扑指数、再从拓扑指数到性质的两阶段框架是否可行且高效。不同机器学习算法在该任务中的性能差异如何？比较线性回归、随机森林、XGBoost、神经网络等模型在两个阶段的表现，识别最优算法组合。创新点两阶段机器学习框架：首次将拓扑指数预测与性质预测分离，提高了模型的模块化和可解释性多拓扑指数集成：选用六种互补的拓扑指数（M1、M2、ABC、Randić、Harmonic、Forgotten），全面表征分子拓扑特征 SMILES直接预测：无需3D结构优化，直接从SMILES字符串预测拓扑指数，大幅提升计算效率多算法对比：系统比较四种主流机器学习算法，为不同场景提供最优选择适用域评估：引入Williams图等工具，明确模型的适用范围，避免外推风险开源工具链：提供完整的GitHub代码库，促进方法的推广和应用研究内容核心方法：两阶段机器学习框架本研究的核心创新在于两阶段预测框架。传统QSPR方法直接从分子结构预测性质，而本研究引入拓扑指数作为中间桥梁，将复杂任务分解为两个子问题：阶段一：SMILES → 拓扑指数输入：SMILES字符串（分子的一维文本表示）输出：六种拓扑指数（M1、M2、ABC、Randić、Harmonic、Forgotten）方法：使用RDKit解析SMILES，提取分子图，计算拓扑指数模型：训练四种机器学习模型（线性回归、随机森林、XGBoost、神经网络），预测拓扑指数阶段二：拓扑指数 → 理化性质输入：六种拓扑指数输出：六种理化性质（摩尔折射率MR、极性表面积PSA、极化率P、摩尔体积MV、分子量MW、复杂度C）方法：基于阶段一预测的拓扑指数，训练预测模型模型：同样比较四种机器学习算法这种分解策略的优势在于：降低复杂度：每个阶段的输入输出维度较低，避免维度灾难提高可解释性：拓扑指数具有明确的化学意义，便于理解模型决策模块化设计：两个阶段可独立优化和替换知识迁移：拓扑指数可用于其他性质预测任务 graph TD subgraph "模型评估" I["交叉验证 R²,MAE,RMSE"] J["Williams图 适用域分析"] I --> J end subgraph "阶段二：拓扑指数到理化性质" E["预测的拓扑指数"] F["特征工程 相关性分析"] G["机器学习模型 LR/RF/XGB/NN"] H["理化性质 MR,PSA,P,MV,MW,C"] E --> F --> G --> H end subgraph "阶段一：SMILES到拓扑指数" A["SMILES字符串 C1=CC=CC=C1"] B["RDKit解析 生成分子图"] C["拓扑指数计算 M1,M2,ABC,Randić, Harmonic,Forgotten"] D["机器学习模型 LR/RF/XGB/NN"] A --> B --> C --> D end 数据集与分子描述符数据集构建规模：59种抗病毒化合物来源：PubChem数据库覆盖范围：HIV抑制剂（AZT、Indinavir）、乙肝药物（Entecavir、Tenofovir）、流感药物（Oseltamivir、Zanamivir）、COVID-19药物（Remdesivir、Molnupiravir）等性质数据：通过PubChem和RDKit计算获得六种理化性质的实验或计算值拓扑指数定义研究选用了六种经典拓扑指数，它们从不同角度表征分子拓扑特征： First Zagreb指数（M1）： \[M_1(G) = \sum_{v \in V(G)} d_v^2\] 其中 $d_v$ 是顶点 $v$ 的度数。反映分子的整体连接性和分支度。 Second Zagreb指数（M2）： \[M_2(G) = \sum_{uv \in E(G)} d_u d_v\] 对所有边求度数乘积。捕捉相邻原子的连接特征。 ABC指数： \[\mathrm{ABC}(G) = \sum_{uv \in E(G)} \sqrt{\frac{d_u + d_v - 2}{d_u d_v}}\] 原子-键连接性指数，与分子稳定性和应变能相关。 Randić指数： \[R(G) = \sum_{uv \in E(G)} \frac{1}{\sqrt{d_u d_v}}\] 反映分子的分支程度，广泛用于沸点、折射率预测。 Harmonic指数： \[H(G) = \sum_{uv \in E(G)} \frac{2}{d_u + d_v}\] 与分子的电子性质相关。 Forgotten指数： \[F(G) = \sum_{v \in V(G)} d_v^3\] 类似M1但对高度顶点赋予更大权重，适用于复杂结构分子。机器学习模型研究对比了四种主流算法： 1. 线性回归（LR）假设输入与输出线性相关作为基线模型 2. 随机森林（RF）集成学习方法，构建多棵决策树超参数：100棵树，最大深度10 3. XGBoost 梯度提升决策树，逐步优化残差超参数：100棵树，学习率0.1，最大深度5 4. 神经网络（NN）多层感知机，三个隐藏层（128、64、32神经元）激活函数：ReLU，优化器：Adam 实验结果与分析阶段一：SMILES到拓扑指数的预测性能表1：拓扑指数预测的$R^2$值（阶段一）拓扑指数线性回归随机森林 XGBoost 神经网络 M1 0.9823 0.9891 0.9907 0.9856 M2 0.9765 0.9867 0.9883 0.9821 ABC 0.9712 0.9834 0.9856 0.9789 Randić 0.9689 0.9812 0.9831 0.9763 Harmonic 0.9734 0.9845 0.9867 0.9798 Forgotten 0.9801 0.9878 0.9895 0.9842 关键发现： XGBoost在所有拓扑指数预测中表现最优，$R^2$均超过0.98 M1和Forgotten指数的预测精度最高，这可能是因为它们的定义更简单，受分子图结构直接影响神经网络性能略低于集成方法，可能是数据集规模（59个样本）不足以充分训练深度模型阶段二：拓扑指数到理化性质的预测性能表2：理化性质预测的$R^2$值（阶段二）性质线性回归随机森林 XGBoost 神经网络摩尔折射率（MR） 0.9876 0.9923 0.9938 0.9901 极性表面积（PSA） 0.9712 0.9801 0.9823 0.9765 极化率（P） 0.9851 0.9912 0.9891 0.9878 摩尔体积（MV） 0.9823 0.9889 0.9907 0.9856 分子量（MW） 0.9901 0.9945 0.9950 0.9923 复杂度（C） 0.9734 0.9823 0.9845 0.9789 图1：六种理化性质的实验值与预测值对比散点图（包含MR、PSA、P、MV、MW、C六个子图，每个子图展示实验值（x轴）与XGBoost预测值（y轴）的散点，理想情况下点分布在y=x直线附近）关键发现：分子量预测精度最高（$R^2$=0.9950），这是因为MW与拓扑指数（尤其是M1和Forgotten）高度相关，分子越大，顶点越多，拓扑指数越大极性表面积预测难度最大（$R^2$=0.9823），PSA与分子的极性基团分布相关，拓扑指数对极性特征的表征能力有限 XGBoost和随机森林显著优于线性回归，说明性质与拓扑指数之间存在非线性关系表3：不同性质的MAE和RMSE（XGBoost模型）性质 MAE RMSE MR 2.34 3.12 PSA 8.45 11.23 P 0.98 1.34 MV 12.56 16.78 MW 15.67 21.45 C 23.45 31.23 拓扑指数与性质的相关性分析图2：拓扑指数与理化性质的Pearson相关系数热图（6x6矩阵，行为拓扑指数，列为性质，颜色深度表示相关性强度）关键发现： M1和Forgotten与MW、P、MR的相关系数超过0.95，这解释了为何这些性质预测精度高 ABC和Randić与PSA的相关性较弱（$r<0.75$），导致PSA预测难度较大 Harmonic指数在所有性质中表现中等，说明其信息与其他指数有重叠 Williams图与适用域分析图3：摩尔折射率预测的Williams图 Williams图用于评估模型的适用域，横轴为杠杆值（leverage，表示样本在特征空间中的位置），纵轴为标准化残差。理想情况下，所有点应落在 $\pm 3$ 的标准化残差范围内，且杠杆值小于临界值 $h^*$。关键发现： 59个样本中，57个落在适用域内，仅2个样本（Remdesivir和某HIV抑制剂）的杠杆值略高于临界值这表明模型对大多数抗病毒药物具有良好的预测能力，但对结构复杂的新型药物（如Remdesivir）需谨慎与现有方法的对比表4：与文献中其他QSPR方法的性能对比方法描述符类型 $R^2$（MW） $R^2$（P）数据集规模本研究（XGBoost）拓扑指数 0.9950 0.9891 59 Ref [12] 分子指纹 0.9823 0.9756 120 Ref [18] 量子化学描述符 0.9867 0.9801 85 Ref [25] 传统拓扑指数 0.9712 0.9689 50 关键发现：尽管数据集较小，本研究的$R^2$值超越了所有对比方法相比量子化学描述符（需要DFT计算），拓扑指数的计算成本极低相比分子指纹等高维表征，拓扑指数更简洁且可解释讨论部分为何拓扑指数如此有效？拓扑指数的成功源于其对分子拓扑特征的精准捕捉。理化性质本质上由分子的电子结构和空间构型决定，而这些因素又与分子图的拓扑密切相关。例如：分子量由原子数量决定，M1指数（顶点度数平方和）天然编码了这一信息极化率与分子的电子云分布有关，Forgotten指数（高度顶点权重大）能反映高配位原子的贡献复杂度与分子的分支和环状结构相关，ABC和Randić指数擅长表征这些特征两阶段框架的优势与局限优势：模块化：两个阶段可独立优化，例如可以用更强大的图神经网络替代阶段一的RDKit计算可解释性：拓扑指数作为中间表征，允许研究者分析哪些结构特征主导了性质预测迁移学习潜力：阶段一的拓扑指数预测模型可迁移到其他分子数据集局限：依赖拓扑指数的表达能力：对于某些性质（如PSA），现有拓扑指数可能不足以完全表征数据集规模限制：59个样本对深度学习模型而言偏小，未来需要扩展数据集 Q&A Q1: 为什么选择这六种拓扑指数，而不是其他？ A1: 这六种指数在QSPR文献中被广泛验证，具有互补性。M1和M2是最经典的Zagreb指数，捕捉整体连接性；ABC和Randić反映分支特征；Harmonic与电子性质相关；Forgotten对复杂结构敏感。研究还计算了更多指数，但相关性分析显示这六种已足够覆盖主要信息，增加更多指数会导致冗余和过拟合。 Q2: 两阶段框架相比端到端模型（直接从SMILES预测性质）有何优势？ A2: 可解释性：端到端模型（如图神经网络）是黑箱，两阶段框架通过拓扑指数提供了中间可解释层数据效率：拓扑指数降低了特征维度，使得小样本数据集也能训练出高精度模型灵活性：可以根据需要替换阶段一或阶段二的模型，例如用GNN替代RDKit计算拓扑指数迁移学习：拓扑指数是通用的分子表征，阶段一的模型可用于其他性质预测任务 Q3: Williams图中为何Remdesivir的杠杆值较高？这对模型应用有何影响？ A3: Remdesivir是一种结构复杂的核苷类似物，含有多个杂环和功能基团，其拓扑特征在训练集中较为罕见，导致杠杆值（特征空间中的距离）较高。这意味着模型对Remdesivir的预测可能不如对训练集内常见结构的药物准确。在实际应用中，对于杠杆值高的新分子，建议结合实验验证或使用集成模型来降低预测不确定性。 Q4: 神经网络在本研究中表现不如XGBoost和随机森林，原因是什么？ A4: 主要原因是数据集规模较小（59个样本）。深度神经网络通常需要数千甚至数百万个样本才能充分训练，小样本下容易过拟合。相比之下，XGBoost和随机森林等树模型对小样本更鲁棒，且超参数调优相对简单。未来如果数据集扩展到数百个样本，神经网络的性能可能会超越树模型。 Q5: 该方法能否推广到其他类型的药物（如抗癌药、抗生素）？ A5: 可以，但需要重新训练模型。拓扑指数是通用的分子表征，理论上适用于任何有机小分子。然而，不同类型药物的结构特征和性质分布可能存在差异。例如，抗癌药通常包含更多的芳香环和杂原子，拓扑指数的相关性可能不同。因此，推广到其他药物类别时，建议收集相应数据集，重新训练并验证模型。关键结论与批判性总结潜在影响加速药物设计：提供了一种快速、低成本的药物性质预测工具，可用于虚拟筛选和先导化合物优化促进拓扑指数研究：证明了拓扑指数在现代机器学习框架中的价值，激励开发新型拓扑描述符推动开源科学：完整的代码库降低了方法的使用门槛，有助于社区验证和改进为COVID-19等新兴疾病提供工具：快速预测新抗病毒药物候选物的性质，辅助紧急药物研发存在的局限性数据集规模较小：59个样本限制了模型的泛化能力，尤其是对结构新颖的药物拓扑指数的表达瓶颈：某些性质（如极性表面积）与拓扑指数的相关性不高，需要引入额外描述符缺乏三维结构信息：拓扑指数仅基于二维分子图，忽略了立体化学和构象效应，这可能影响某些性质（如溶解度、渗透性）的预测适用域有限：对于训练集外的复杂结构（如大环肽、多糖）预测精度未知未考虑药物动力学性质：仅预测理化性质，而药物的体内活性还受吸收、分布、代谢、排泄（ADME）等因素影响未来研究方向扩展数据集：纳入更多抗病毒药物（目标1000+），提高模型的泛化能力和鲁棒性引入3D拓扑指数：结合分子的三维构象信息，开发新的拓扑描述符集成多模态特征：融合拓扑指数、分子指纹、量子化学描述符，构建混合模型图神经网络：用GNN替代阶段一的RDKit计算，实现端到端可微分的拓扑指数预测药效预测：将框架扩展到抗病毒活性（如IC50、EC50）的预测，直接指导药物设计主动学习：结合实验反馈，迭代优化模型，逐步减少实验验证的样本量

Machine Learning & AI · 2025-11-02

Token-Mol 1.0 Deep Analysis: Translating 3D Molecular Structures into Discrete Language for Language Models

Token-Mol 1.0 深度解析：将三维分子结构“翻译”为语言模型的离散语言摘要随着大型语言模型（LLM）在药物设计领域的应用日益增多，如何有效融合分子的三维（3D）结构信息成为了一大核心挑战 1。传统的化学语言模型（如基于SMILES）本质上无法处理3D信息 2，而基于图的方法虽然可以包含几何信息，却难以与通用的NLP模型集成 3。Token-Mol 1.0 是一篇发表于 Nature Communications 的研究，它提出了一种创新的“纯词元化”（token-only）范式，旨在构建一个统一的AI药物设计基础模型，弥合二维化学语言与三维物理结构之间的鸿沟。本解析将重点阐述Token-Mol的核心方法论，特别是其分子表征策略、模型架构与关键创新模块，并探讨其与通用大模型技术（如RAG）的潜在整合，为理解和借鉴其设计哲学提供深度视角。核心方法：Token-Mol的分子表征哲学 Token-Mol的基石在于其独特的输入构建方式，它将复杂的分子信息完全转化为一个离散的词元（token）序列，使得标准的语言模型可以直接处理。输入构建：融合2D与3D信息的“分子语言” 模型的核心思想是将一个带有三维构象的分子，编码为一个包含二维拓扑和三维几何信息的单一文本序列。这个过程如图1a 所示，具体步骤如下：获取二维拓扑信息 (SMILES)：输入：分子的二维连接性图。处理：首先，将分子结构转换为化学领域广泛应用的 SMILES（简化分子线性输入规范）字符串 4 。SMILES是一种用ASCII字符串明确描述分子结构的规范。输出：一串描述分子图的字符序列，例如 C1=CC(=CC(=C1)O)CN... 5 。这是最终序列的基础部分。提取三维几何信息 (Torsion Angles)：挑战：直接将原子的三维笛卡尔坐标（XYZ）作为输入，会导致序列过长且难以处理分子的旋转/平移不变性 6 。 Token-Mol的解决方案：通过在分子的SMILES表示上进行深度优先搜索（DFS）遍历，来提取决定其三维构象的关键可旋转键的扭转角（Torsion Angles） 7 。扭转角是描述分子构象的核心内部坐标，具有旋转不变性。输出：一系列代表扭转角度数的连续数值，例如 [-0.20, 3.14, 2.18, ...] 8 。整合为最终的“Token-only”表征：处理：将提取出的扭转角数值也作为独立的词元，直接追加到SMILES字符串的末尾 9 。同样，分子的其他理化性质（如在性质预测任务中）也被处理成词元 1010 。最终输入序列：一个结合了SMILES和扭转角词元的长序列，能够同时表征分子的2D化学结构和3D空间构象 1111 。设计哲学：这种表征方式非常精妙，它将决定分子3D构象的核心自由度（扭转角）从连续空间映射到了离散的词元空间，同时保留了描述2D化学结构的SMILES语言。这使得一个基于Transformer的标准语言模型架构，能够在一个统一的框架内同时“阅读”和“理解”分子的2D和3D信息 1212 。 Token-Mol的核心机制在于其创新的数据表示方式。它使用广泛接受的SMILES（简化分子线性输入规范）字符串来表示分子的2D连接性，即原子类型和化学键排布。SMILES本身是一种成熟的化学语言，但它本质上缺乏3D空间信息。为了弥补这一缺陷，Token-Mol引入了扭转角（torsion angles）作为3D构象的关键描述符。扭转角描述了沿化学键旋转的构象自由度，是决定分子三维形状的核心内部坐标之一。该模型的实现流程是，首先通过深度优先搜索（DFS）遍历分子图，提取出所有可旋转键的扭转角。然后，将这些连续的扭转角数值进行离散化处理，并作为特殊的“扭转角令牌”附加到SMILES字符串的相应位置。最终形成一个混合序列，例如 C(C<120.5>)C，其中 <120.5> 就是一个代表特定扭转角度的令牌。这种方式巧妙地将2D拓扑（SMILES骨架）和3D几何（扭转角）编织成一种“3D注释的化学语言”，可以直接输入到Transformer解码器中进行自回归式学习。图1: Token-Mol总览。(a) 数据预处理流程，将分子的SMILES字符串与扭转角结合成单一的词元化表示 13。(b) 模型的预训练与微调工作流 14。(c) GCE损失函数的权重分配示意图 15。(d) 用于口袋生成任务的编码器与融合模块 16。输入表征的优势与劣势这种将SMILES与扭转角结合的“分子语言”是一种创新的折衷，具有独特的优缺点。优势: 统一2D与3D信息：最核心的优势在于，它成功地将2D拓扑信息（SMILES）和3D几何信息（扭转角）编码到一个单一的、离散的词元序列中，从而能够被标准的语言模型架构直接处理 17171717 。兼容性与速度：作为一种“纯词元化”模型，它与GPT等通用大语言模型的架构高度兼容，易于集成 18181818 。其推理速度极快，例如在分子生成任务中比基于几何的扩散模型快约35倍 191919191919191919 。规避XYZ坐标的难题：该方法避免了直接使用笛卡尔坐标（XYZ）带来的序列过长和缺乏旋转等变性的问题 20 。 ** bridging a gap**：Token-Mol的表征为分子表示范式提供了第三条路径，有效连接了传统的2D序列模型（无法处理3D信息）和3D图模型（难以集成到通用LLM中） 21 。生成更灵活的分子：通过引入扭转角信息，模型能够生成比单纯基于2D信息的模型更柔性、更多样化的分子，以更好地适应不同形状的口袋 22 。劣势与挑战: 对低频信息的学习不足：模型在学习和准确预测那些出现频率较低的扭转角的分布时会遇到困难 23 。数值敏感性有限：尽管引入了GCE损失函数，但与基于图神经网络（GNN）的模型相比，Token-Mol对连续数值的敏感度仍然存在局限 24 。结构有效性风险：由于模型是自回归地生成序列，对扭转角数量或数值的预测不准确可能会导致最终生成的分子结构无效 25 。对柔性分子的挑战：分析表明，随着分子中可旋转键数量的增加，所有评估指标的性能都呈下降趋势 26 。尽管Token-Mol在这种情况下依然表现出相对优势，但这仍然是一个固有的挑战 27 。模型架构与训练策略 Token-Mol采用了一系列精心设计的策略来训练模型，以确保其能够从“分子语言”中学习到有用的知识。模型骨干：Transformer解码器架构：模型基于一个包含 12层Transformer解码器的架构，每层配备8个注意力头 28 。自回归方法：采用自回归（Autoregressive）方式进行训练和生成 29 。在训练时，通过掩码矩阵防止信息泄露 30 ；在生成时，模型逐个预测下一个词元，从而构建出完整的分子序列 31 。关键创新1：随机因果掩码 (Random Causal Masking) 挑战：传统的从左到右的因果掩码不适合“完形填空”式的任务，限制了模型的灵活性 32 。 Token-Mol的策略：在预训练阶段，采用随机因果掩码策略 33333333 。它会从泊松分布中采样要掩盖的片段数量（1到6个），然后在序列中随机选择位置进行掩码 34 。被掩盖的内容会附加在序列末尾，由特殊词元引导模型进行预测 35 。目的：这种策略极大地增强了模型“填空”的能力，使其能适应更多样化的下游任务，例如在分子的特定位置进行修饰或补全 36 。关键创新2：高斯交叉熵损失函数 (Gaussian Cross-Entropy Loss) 挑战：传统的交叉熵损失函数主要用于离散分类任务，它对数值大小不敏感 37 。例如，在预测扭转角时，如果真实值是2°，那么预测成3°和80°所产生的损失是完全相同的，这显然不合理 38 。 Token-Mol的解决方案：针对回归任务（如预测扭转角和分子属性），作者提出了高斯交叉熵（GCE）损失函数 39393939 。工作原理 (如图1c)：对于每一个要预测的数值标签，GCE会构建一个以该标签值为中心的高斯分布 40 。这样，离真实标签值越近的词元会被赋予越高的概率权重，而离得远的词元权重则较低 41 。效果：这种加权方式使得模型在训练过程中能够学习到数值之间的相对关系 42 ，显著提升了其在回归任务上的表现。消融实验表明，缺少GCE会导致模型在回归任务上的平均RMSE增加约12% 43 。下游任务：分子性质预测分子性质预测是检验模型表征学习能力的关键。在Token-Mol的框架中，这不是预训练阶段的一部分，而是一个下游微调任务。流程：模型首先在大型无标签分子数据集（GEOM）上进行预训练，学习通用的分子表征 44444444。然后，针对具体的性质预测任务，使用带有标签的特定数据集对模型进行微调（Fine-tuning） 45454545。预测的性质：研究中评估了一系列分类和回归任务，数据集来源于MoleculeNet和TDC等基准平台 46。分类任务 (Classification) ： BACE ：预测分子是否为β-分泌酶1（BACE1）抑制剂 47 。 BBBP (Blood-Brain Barrier Penetration)：预测分子是否能穿透血脑屏障 48 。 ClinTox ：预测药物是否因毒性而在临床试验中失败 49 。 SIDER ：预测药物的副作用 50 。 Tox21 ：预测化合物在12条毒性信号通路上的活性 51 。 ToxCast ：预测化合物在数百种高通量筛选实验中的毒性 52 。回归任务 (Regression) ： ESOL ：预测有机物在水中的溶解度 53 。 FreeSolv ：预测小分子在水中的水合自由能 54 。 Lipophilicity ：预测分子的亲脂性（油水分配系数） 55 。 Caco-2 ：预测药物通过Caco-2细胞的渗透率，用以模拟肠道吸收 56 。 AqSolDB (Aqueous Solubility) ：预测分子的水溶性 57 。 Acute Toxicity LD50 ：预测化学物质的急性口服毒性（半数致死剂量） 58 。注意力分析：为了验证模型的可解释性，研究者分析了模型在进行溶解度（ESOL）和毒性（LD50）预测时的注意力权重 59。结果显示，在预测溶解度时，模型会高度关注极性基团（如羟基、氨基）和疏水基团（如氯苯） 60；在预测毒性时，模型会准确地将高注意力分配给已知的毒性基团（toxicophores），如亚硝酰胺和磷酸三酯 61616161。这证明模型不仅能做出准确预测，其决策过程也与化学直觉相符。核心模块深度解析：基于口袋的分子生成 Token-Mol通过引入特定模块来处理复杂的下游任务，尤其是基于口袋的分子生成。口袋编码器与融合模块 (Pocket Encoder and Fusion Block) 任务：在给定蛋白质口袋信息的前提下，生成能与之结合的配体分子 62。输入：蛋白质口袋信息：使用一个预训练好的蛋白质口袋编码器来提取口袋的3D结构和理化性质特征 63636363 。该编码器在Token-Mol微调阶段其参数被冻结，仅作为特征提取器 64646464 。部分生成的配体序列（在自回归过程中）。模型设计与融合机制 (如图1d)：融合机制：为了将口袋信息与正在生成的配体分子信息相融合，模型采用了一种多头条件注意力（multi-head condition-attention）机制 6565656565656565 。工作原理：这与传统的交叉注意力有所不同。在这里，蛋白质口袋信息被视为一个静态的“提示（Prompt）” 66666666 。在自回归生成配体的每一步中，注意力机制的查询（Query）、键（Key）和值（Value）矩阵完全来源于已经生成的配体序列本身 67 。口袋的“提示”信息则被用来调节（condition）这个自注意力计算过程。通俗解释：可以想象成，在写一个故事时，有一个固定的主题（口袋信息）放在旁边。在写每个新句子（生成新原子/键）时，你不仅要回头看自己已经写过的内容（已生成的配体部分），还要时刻瞟一眼那个主题，确保新写的内容与主题是相关的。这使得生成的分子在每一步都受到口袋环境的约束和引导，从而保证了其结构与目标口袋的高度匹配。与强化学习（RL）的结合目的：针对特定目标（如最大化与某个靶点的结合亲和力），进一步优化生成的分子 68 。可行性：Token-Mol的自回归架构与强化学习框架天然契合，因为“生成一个词元”这个动作可以被看作是RL中的一个“行动（action）” 69 。实施：研究中使用了 REINVENT算法对模型进行优化 70 。通过设计一个包含亲和力（Vina Score）和类药性（QED）的奖励函数，模型可以在满足约束条件（如类药性）的同时，逐步生成亲和力更高的分子 717171717171717171 。实验证明，通过RL优化，分子的Vina score得到了显著提升，平均值从-8左右优化到了约-9.5 72 。未来展望：与通用大语言模型的融合 Token-Mol的“纯词元化”框架使其与前沿的通用大模型技术具有极佳的兼容性，为未来构建更强大的药物设计助手铺平了道路 73737373。即时交互与提示学习 (Prompt Learning) Token-Mol可以像与ChatGPT对话一样进行交互 74 。通过设计特定的任务提示（如 Predict ESOL ）并对模型进行微调后，用户可以直接向模型查询特定分子的性质，模型也能成功返回预测结果 75 。这展示了其作为化学家对话伙伴的巨大潜力 76 。检索增强生成 (Retrieval-Augmented Generation, RAG) 论文明确指出了整合RAG的未来方向 77777777 。工作流程设想：当用户向Token-Mol查询一个分子的性质时，系统可以首先将查询（包含分子信息）转换为一个向量，然后在一个包含海量分子数据（如3D结构、其他理化性质、实验数据等）的向量数据库中进行检索 78 。优势：检索出的最相关的上下文信息，会与原始查询一起被输入到Token-Mol中 79 。这使得模型在生成答案时，不仅依赖其内部学到的知识，还能参考外部数据库提供的、更丰富和准确的实时信息，从而极大地增强其预测的可靠性和信息的全面性。总结 Token-Mol 1.0 是首个专为药物设计定制的“纯词元化”大型预训练语言模型 80。通过将分子的2D（SMILES）和3D（扭转角）信息统一编码为离散词元序列，并引入高斯交叉熵（GCE）损失函数来处理连续数值，它成功地让一个标准的Transformer架构能够同时理解和生成复杂的分子结构 81。其模块化的设计，以及与强化学习、RAG等前沿AI技术的天然兼容性，为开发“单一基础模型驱动的全面药物设计”提供了一条极具前景的道路 82。

Machine Learning & AI · 2025-11-02

Boltz-2 vs. FEP? A False Dichotomy. Synergy is the Future

Boltz-2 vs. FEP？这是个伪命题。强强联合才是未来作者：David “Dap” Pearlman 人工智能模型 Boltz-2 声称在配体亲和力预测方面取得了一些惊人的进步。但它最大的价值可能在于虚拟筛选和亲和力漏斗（Affinity Funneling）领域。 FEP 和 Boltz-2：携手并进！人工智能/机器学习（AI/ML）的旋风从未停歇。如果你对各种消息都信以为真，会越来越觉得，我们距离用一个足够大的神经网络解决所有生物学难题，只差一篇惊天动地的新闻稿了。好了，收起你的白眼吧。尽管如此，刚刚发布的 Boltz-2 AI/ML 模型所做的声明——尤其是在预测配体与蛋白质的结合亲和力方面——确实引人入胜。但空口无凭。让我们深入探究。超越迭代：Boltz-2 带来了什么？与其前身 Boltz-1 相比，这次的新迭代似乎是向前迈出的重要一步。作者报告称，其在各种分子类型（蛋白质、RNA、DNA-蛋白质复合物等五花八门）上的结构准确性都有所提高。他们特别强调了在抗体-抗原复合物这类出了名的棘手体系上取得的进展。这些改进似乎部分归功于一些聪明的数据策略，例如使用“大型蒸馏集”（来自其他模型如 AlphaFold 甚至 Boltz-1 自身的高置信度预测）来创造更多的训练样本，特别是对于那些实验数据稀缺的体系，如 RNA 和 DNA-蛋白质复合物。Boltz-2 还着力在训练集中加入了更多的动态信息。它不再局限于 PDB 数据库中静态的晶体学“快照”，而是整合了 NMR 谱学系综和分子动力学（MD）模拟数据。这使得它能够预测并使用像 B-因子（B-factors）这样的性质进行训练，并能根据实验方法类型（如 X 射线、NMR 或 MD）来生成特定条件的结构。此外，它在施加距离约束和多聚体模板方面的功能也有所改进。而且，也许最棒的是，和 Boltz-1 一样，它是开源的，代码和权重都免费提供，这极大地激励了学术界和生物技术界的创新与验证。入局挑战：Boltz-2 与 AlphaFold3 的阴影尽管 AlphaFold3 为结构预测领域划下了一条新的起跑线，并声称可以预测配体/蛋白质的结构，但它在评估一组配体的相对结合能力方面并没有提供太多帮助。Bolt-1 也是如此。而这正是 Boltz-2 可能改变游戏规则的地方。当然，它也必将引发巨大的关注。亲和力的诱惑：为何 Boltz-2 的声明如此引人注目？这正是 Boltz-2 做出其最大胆声明的地方，也是其论文中所描述的结果“如此诱人”的原因。以 AI 模型的速度获得相当准确的配体结合亲和力估值，这一前景有望为那些可以为了通量而牺牲部分准确性的工作流程带来颠覆性的改变。特别是，计算药物发现领域一直缺少能够处理虚拟筛选活动后产生的数千个多样性化合物的解决方案——这个数量对于今天的计算资源来说，即使是绝对自由能微扰（FEP）也太多了，而快速打分函数（如对接分数、MM/GBSA 等）又无法对它们进行有效排序。作者声称，Boltz-2 “在计算效率上比 FEP 至少高出 1000 倍”，同时在某些基准测试中的表现接近 FEP。他们选对了目标：FEP/TI（热力学积分）无疑是我们目前拥有的用于高精度结合评估的最佳计算工具。论文展示了一些引人注目的图表。也许最亮眼的就是在 FEP+ 基准测试集的 OpenFE 子集上的结果，其中 Boltz-2 的表现接近 FEP 本身，Boltz-2 的皮尔逊 R² 为 0.38，而 OpenFE 为 0.40，FEP+ 为 0.52（我冒昧地将论文中的 R 值转换为了 R²，因为这是现代自由能文献中更常见的度量方式）。他们还在最近的 CASP16 亲和力挑战赛的化合物上展示了同样诱人的好结果。但必须指出，尽管 Boltz-2 的预测令人印象深刻——考虑到 1000 倍的速度提升，甚至可以说是惊人的——它与 FEP+ 之间的差异仍然相当显著，特别是考虑到 FEP 在药物发现中的应用方式——下文将详细阐述。但我们别高兴得太早：FEP 并未过时毫无疑问，Boltz-2 很酷。但在我们开始质疑为何还要做 FEP 之前，让我们先戴上怀疑者的帽子。每个科学家都需要一顶这样的帽子，尤其是在驾驭 AI/ML 炒作这片时常波涛汹涌的水域时。值得称赞的是，Boltz-2 的论文对其目前的局限性保持了相当的透明度。我认为，这里最大的警示信号是作者报告的，当试图将 Boltz-2 应用于来自其合作伙伴 Recursion 的八个盲测配体/靶标数据集时的结果。对于这些数据集，他们仅在三个集合上实现了皮尔逊 R² > 0.30，而在其他五个集合上表现“有限”。每个集合都包含数百个实验测定点，总体而言，对于这八个集合，平均皮尔逊 R² = 0.15，平均肯德尔 Tau 仅为 0.23。这些数值虽然显著优于其他机器学习方法在这些集合上的表现（如 GAT, BACPI），但对于许多实际应用场景来说，这样的 R² 值实在是太低了。这些在真实的 Recursion 数据集上的结果让人不禁怀疑，在那些预测效果较好的测试/验证集和训练数据之间，是否存在着微妙的数据泄漏——尽管论文作者描述了他们通过排除与验证/测试集有 ≥ 90% 相似性的蛋白质来防止明确泄漏的努力。图14 来自 Passaro 等人的论文《Boltz-2：迈向准确高效的结合亲和力预测》。这些图表展示了 Boltz-2 在 Recursion Pharmaceuticals 提供的八个未发表的盲测数据集上的预测与实验行为。其中大多数缺乏可指导行动的相关性，这令人警醒。与 FEP 方法相比，Boltz-2 的一个主要局限性在于它仍然依赖于蛋白质受体位点的结构。与 FEP 和 TI 等自由能方法不同，这种打分方法无法调整结合位点以适应起始配体/蛋白质构象中的微小问题。它也无法反映结合位点为适应不同结合物而进行的调整。因此，尽管这个 AI/ML 模型相当复杂，但归根结底，它仍然建立在那个曾让许多其他打分方法停滞不前的“锁-钥模型”之上。（Boltz-2 试图通过在模型拟合过程中整合动态信息来部分缓解这个问题。）这可能已经接近了该模型所能达到的极限（嘿，对于相对评估来说，它已经比传统的对接分数好太多了！），但到某个点，你终究得为蛋白质的柔性买单。而一旦你这么做，你的计算成本很可能会上升几个数量级，然后，哇哦！你又回到了 FEP 的领域。 Boltz-2 的第二个严重局限性是，它没有包含对溶剂（水）、金属、离子或辅因子的显式模型（溶剂是隐式处理的）。对于许多体系来说，这种简化是个非常、非常糟糕的大问题。作为一名工业界的计算化学家，你只能接受现实，如果你正在研究的体系的结合是由这些因素中的任何一个介导/控制的（很多体系都是如此），那么 Boltz-2 可能帮不了你。但值得注意的是，CASP16 挑战集中的几个体系确实包含了辅因子，而 Boltz-2 在这些体系上似乎表现得相当不错。所以现实情况可能会更微妙，且依赖于具体体系。 Boltz-2 能否解决对接的“漏斗”根本问题？话虽如此，即使是像我这样在这个领域里cynical old timer，也不禁感到好奇。与其说它能取代 FEP 用于苗头到先导化合物的后期优化，不如说它提供了一种可能在虚拟筛选漏斗的底部提供增量价值的方法，而目前没有任何方法能在该阶段提供必要的准确性和速度组合。（参见 Sindt, Bret, 和 Rognan 最近发表的优秀论文。）在那个阶段应用一种有信号的方法的神奇之处在于，你仍然在玩一个大数游戏，你不必每次都对——你只需要在总体上是正确的，并且能够可靠地富集从（比如说）10,000个化合物到几百个化合物的苗头数量。论文中对此的可行性进行了一些论证，首先是在先前发表的 MF-PCBA 基准测试上（Boltz-2 在此取得了不错的富集效果），然后是通过比较 Boltz-2 如何对潜在的 TYK2 结合物进行打分，这些结合物既包括随机分子，也包括被特别鉴定为具有良好结合能力的分子（来自各种公共来源和他们自己的 SynFlowNet 方法）。经验上，Boltz-2 对非随机化合物的总体排名更好。在对这些化合物的绝对结合自由能计算与 Boltz-2 进行更严格的比较中，获得了 R² = 0.55 的良好相关性。如果这种可靠性能被广泛证实，这将成为一种改变游戏规则的、用于虚拟筛选的重打分方法。然后是亲和力漏斗（Affinity Funneling）：Boltz-2 和 FEP 携手合作虽然虚拟筛选漏斗是药物化学家最熟悉的，但在药物化学家和计算化学家之间，价值链的更下游还有另一个漏斗。药物化学家非常擅长快速提出想法，而一个优秀的药物化学家可以轻易地提出超出计算化学家现有评估能力的想法数量。因此，我预计 Boltz-2 也将在这里介入这个过程。我正在构想一个工作流程——我称之为“亲和力漏斗”（Affinity Funneling）——化学家带着一长串想法进来，Boltz-2 被用来将其筛选成一个更短的列表，使其与在要求的时间内可用于 FEP 的资源相匹配，然后将 FEP 应用于这个缩减后的列表以获得更可靠的结果。如果这行得通，它可以将当前的模式（化学家的想法清单通常相对较小）转变为一种新模式，即由药物化学家发起的更广泛的自动化枚举（例如“在所有这些 R 位点上进行卤素和甲基取代的所有组合”）输入到 Boltz-2 中，然后最好的结果再通过 FEP 进行计算。Boltz-2 和 FEP 之间的协同作用甚至可能增加 FEP 的整体价值和使用率。不是对抗，而是合作的力量！这种 AI + 物理的混合模式，正如同机器学习正在增强材料科学和气候建模等领域一样。如果 Boltz-2 在分流筛选中继续显示出信号，它将适用于虚拟筛选和亲和力漏斗工作流程，如图所示。两者都是高价值的应用，而 Boltz-2 催生的新“亲和力漏斗”工作流程可能会增加 FEP 的使用，因为它能将可用的 FEP 计算管线与药物化学家的最大创意产出速率相匹配，同时解放药物化学家进行更广泛的组合思维。盘点：Boltz-2 最终可能的位置那么，Boltz-2 在宏伟蓝图中处于什么位置？它似乎是 Boltz-1 的一个显著进步，并且在结合亲和力和模型可控性等领域提出了可信的挑战，旨在相对于 AlphaFold3 和其他竞争者开辟自己的生态位。快速、合理准确的结合亲和力估算的潜力确实引人注目，并可能显著加速药物发现马拉松的某些阶段。我们或许真的有了一个可以应用于虚拟筛选漏斗底部的工具，这个想法非常令人兴奋，同样令人兴奋的还有参与“亲和力漏斗”的潜力。这些是我将密切关注的应用。另一方面，作为一种在苗头到先导化合物的后期优化过程中取代 FEP 或 TI 等自由能工具的工具？我看不到 Boltz-2 能取得巨大进展。要理解为什么，你需要考虑这些方法是如何被使用的。FEP（或 TI）通常应用于项目的实验阶段，化学家可能会提出几个（或几十个）想法，然后问：“我有这些想法。我只有几天时间来合成几个。你建议我做哪些？”为了有把握地回答这样的问题，我们需要依赖这样一个事实：现代 FEP 计算通常能精确到 1 kcal/mol 或更好，并伴随着通过 ROC 分析等衡量的相应富集效果。从 FEP 计算被引入至今，我们花了整整 40 年时间，才让采样和力场发展到让化学家和建模者都感到足够放心的地步，认为我们可以以适当的可靠性水平回答这些问题。Boltz-2 的结果，虽然在抽象层面上令人印象深刻，但无疑是一个巨大的退步。对于 OpenFE 基准测试，这是从 R² = 0.52 下降到 0.38。（是的，R² 是一个很差的指标，但在这个范围内如此大的差异通常是实质性的。）对于一个成功依赖于这些结果的化学家来说，这很容易就是“有趣，请继续”和“抱歉，下一个”之间的区别。毫无疑问，有些人会看到这些充满希望（但较差）的结果，然后想：“我们快成功了。”但我们怎么才能更进一步呢？Boltz-2 已经吞噬了作者能找到的所有结合数据，但受限于 Landrum 和 Riniker 在其论文中戏剧性呈现的不同来源数据的可重复性问题。高质量的实验配体结合数据（IC50、Ki 等）严重落后于配体/受体相互作用的广阔空间，而且这种情况短期内不太可能改变（除非用[合成的]计算结合数据来增强）。AI/ML 还受困于众所周知的可解释性问题，这使得找出需要什么来改进预测变得模糊不清。因此，情况更可能是“我们不只是快到了，我们几乎已经走到了路的尽头”——至少在数据生成或模型架构出现新突破之前是这样。事实上，Boltz-2 的作者自己也承认，解决当前的局限性“将需要在扩展和整理训练数据、改进模型架构以及整合额外的生化背景方面进行未来的工作。”当然，这些都是整个 AI 领域的活跃研究领域，但它们在亲和力预测这个复杂问题上的应用仍然是一个前沿领域。如果是这样的话，那么，FEP 领域仍然有巨大的改进空间，特别是在更好的力场和更好的采样方面。对于前者，我一直在 QSimulate 参与一项将量子力学带入主流的努力，我们基于 QM/MM 的 FEP 现在已经成为现实，它拓宽了 FEP 计算的适用范围和准确性，超越了即使是最好的经典力场所能达到的水平。通过更快的 GPU 和巧妙的实现思路，采样也在持续改进。与 AI/ML 相比，基于物理的方法的美妙之处在于，我们可以识别缺点并专注于改进它们。一个强大的工具，如果你知道该指向何方与所有新工具一样，实践是检验真理的唯一标准——在独立验证中，在真实世界的应用中，以及在它如何应对该领域不可避免地转向下一个大事件时。Boltz-2 最大的影响可能不是作为高精度方法的直接替代品，而是在被巧妙地应用于弥合快速对接打分和更严格的自由能方法之间的差距时，例如用于虚拟筛选苗头化合物的分流筛选，或用于评估那些将要用更准确（但更慢）的 FEP 进行评估的配体。“亲和力漏斗”甚至可能导致对 FEP 的需求增加！当然，一个大问题依然存在：如果额外结合数据的稀缺性和锁-钥模型意味着我们正在接近静态 AI 受体-配体打分模型所能达到的极限，那么下一次飞跃将来自何方？我相信未来的改进将来自于 AI/ML 技术与那些经过数十年发展和完善的基础性、基于物理的方法之间的智能协同。Boltz-2 的开源性质，以及为特定感兴趣的目标谨慎地向训练集中添加数据的能力，可能使得即使在基础模型在你有（或使用基于物理的方法生成）大量相同或相似系统上的额外数据的情况下信号有限时，也能改进 AI 模型。这表明，即使 Boltz-2 最初在某个目标上表现不佳，通过定制训练和额外数据，进一步的改进也是可能的。毫无疑问，这是一个激动人心的时代。真正的力量不在于取代数十年的基础科学，而在于智能地整合像 Boltz-2 这样的 AI 工具来开启新的前沿。拥抱这种协同作用以及用目标数据改进模型的能力，才是我们能够现实地期望在长期内加速药物发现的方式。AI 创新与物理理解之间的这种迭代之舞，才是真正突破将要涌现的地方。

Machine Learning & AI · 2025-11-02

机器学习赋能药物发现：四款实用工具与方法全解析

机器学习赋能药物发现：四款实用工具与方法全解析引言机器学习势能（MLP）和人工智能正在深刻改变药物发现和材料科学领域。从分子动力学模拟到虚拟筛选，从力场开发到模型可解释性分析，研究者们不断开发新工具来提升计算效率、增强预测准确性、改善模型透明度。本文将介绍四项近期发表的重要工作，涵盖数据管理、力场转换、模型优化和性质预测等多个关键环节。一、dpdata：可扩展的原子机器学习数据集工具包本文信息标题: dpdata: A Scalable Python Toolkit for Atomistic Machine Learning Data Sets 作者: Jinzhe Zeng, Xingliang Peng等（中国科学技术大学、北京大学等）发表时间: 2025年单位: 中国科学技术大学、北京大学、AI for Science Institute等引用格式: Zeng, J., Peng, X., Zhuang, Y.-B., et al. (2025). dpdata: A Scalable Python Toolkit for Atomistic Machine Learning Data Sets. J. Chem. Inf. Model. https://doi.org/10.1021/acs.jcim.5c01767 源代码: https://github.com/deepmodeling/dpdata 核心问题机器学习势能的成功高度依赖于大规模、高质量的参考数据集。然而，不同软件包采用异构的文件格式和数据模式，严重阻碍了互操作性：电子结构和分子动力学软件使用各自的输入/输出格式 MLP训练数据通常采用extended XYZ、NumPy数组、pickle、ASE数据库、HDF5等格式即使格式相同，各软件包的数据模式和单位约定也常常不同 dpdata的解决方案核心设计理念 dpdata是一个开源Python库，采用灵活的插件式架构，支持在广泛的文件格式之间进行读取、写入和转换。与ASE等工具不同，dpdata设计为在系统级别而非逐个构型操作数据，显著提升了内存效率和推理速度。关键功能格式支持广泛： MLP包：DeePMD-kit、QUIP GAP、MACE、NequIP、GPUMD、n2p2 MD软件：LAMMPS、AMBER、GROMACS 量子化学：ABACUS、OpenMX、Gaussian、FHI-aims、VASP、Quantum ESPRESSO等通用格式：XYZ、MOL、SDF、ASE、Pymatgen 数据处理工具：自动train-test分割坐标扰动（用于主动学习）异常能量去除 Δ-learning数据集生成误差指标计算单位转换插件扩展性：用户可定义自定义数据类型、格式、驱动和最小化器示例：dpdata_abinit、cp2kdata、dpdata_ani 性能优势内存效率对比：加载QDπ数据集（1,460,161个构型，1.85 GB） dpdata: 1.93 GB ASE: 7.47 GB（约4倍差距）推理加速对比（dpdata driver vs ASE calculator） Water数据集: 4-8倍加速 Copper数据集: ~6倍加速 HEA数据集: ~4倍加速 dpdata的系统级设计允许并行处理多个构型，而ASE按顺序逐个处理。实际应用 dpdata已被多项研究用于：格式转换：将DFT/AIMD输出转换为MLP所需格式数据存储：以dpdata兼容格式共享数据坐标扰动：丰富训练集多样性项目集成：DP-GEN、ChecMatE、PFD-kit、CatFlow、APEX、PyHEA等二、gmx_ffconv：GROMACS全原子力场快速转换工具本文信息标题: gmx_ffconv: A Fast, User-Friendly Semi-Automated All-Atom Force Field Converter for GROMACS 作者: Jasmine E. Aaltonen（Lancaster大学）发表时间: 2025年单位: Lancaster大学化学系（英国）引用格式: Aaltonen, J. E. (2025). gmx_ffconv: A Fast, User-Friendly Semi-Automated All-Atom Force Field Converter for GROMACS. J. Chem. Inf. Model., 65, 9850-9855. https://doi.org/10.1021/acs.jcim.5c02200 源代码: https://github.com/Jassu1998/gmx_ffconv 核心问题 GROMACS力场转换通常是耗时且易错的过程：不同力场采用各自的命名约定和原子排序 GROMACS要求坐标文件中的原子顺序必须与拓扑文件严格匹配即使像DPPC这样的标准脂质，也无法直接通过pdb2gmx从AMBER Lipid21转换到CHARMM36 现有工具的局限： CHARMM-GUI Force Field Converter：需要CHARMM输入文件，仅支持AMBER和CHARMM pdb2gmx：需手动修改残基拓扑文件（.rtp），确保坐标文件语法匹配 gmx_ffconv的解决方案工作原理 gmx_ffconv通过分子图匹配解决原子排序和命名不匹配问题，包含两个核心工具： ffmap：通过图同构找到两个力场间的映射从ITP文件读取原子和键信息根据原子质量识别化学元素（误差容忍度±0.3 amu）构建标记图（原子=节点，键=边）使用NetworkX的VF2算法进行图同构匹配 groconv：根据映射重新排列坐标文件读取原始GRO文件按用户指定的分子类型和数量重组自动重命名残基和重新编号以匹配新力场输出重排的GRO文件验证系统系统分子类型分子数总原子数苯乙酸 BZAA 1 18 病毒膜 CHL, DPPC等 675,234 2,270,122 人血清白蛋白(HSA) PROA, PROB 2 18,246 糖基化SARS-CoV-2刺突蛋白 PROA-C 3 72,990 性能表现时间成本（秒）：分子 CHARMM → AMBER AMBER → CHARMM BZAA 0.10 0.10 CHL 0.10 0.10 DPPC 65.48 0.11 DOPE 60.02 0.33 注意：某些方向的转换可能快数百倍（如DPPC），这取决于节点排序如何影响VF2算法的搜索过程。病毒膜系统转换： ffmap总时间（顺序）: 207.92秒 ffmap总时间（并行）: 71.31秒 groconv时间: 4.47秒使用场景力场验证：使用相同起始坐标比较不同参数化或力场系统转换：轻松转换文献中的预平衡系统到偏好力场一致性名称（v1.0.3+）：通过CSV文件确保原子名称在力场间一致局限性不支持水模型转换（3点 ↔ 4点模型）质子化状态必须一致（不支持互变异构体）双硫键等特征仅在两个拓扑都存在时支持三、通过SHAP和特征分析改进机器学习分类预测本文信息标题: Improving Machine Learning Classification Predictions through SHAP and Features Analysis Interpretation 作者: Leonardo Bernal, Giulio Rastelli, Luca Pinzi（Modena and Reggio Emilia大学）发表时间: 2025年单位: 意大利Modena and Reggio Emilia大学生命科学系引用格式: Bernal, L., Rastelli, G., Pinzi, L. (2025). Improving Machine Learning Classification Predictions through SHAP and Features Analysis Interpretation. J. Chem. Inf. Model. https://doi.org/10.1021/acs.jcim.5c02015 核心问题树基机器学习算法（ET、RF、GBM、XGBoost）在早期药物发现中广泛应用，但常面临：误分类问题：假阳性/假阴性影响虚拟筛选效率可解释性不足：难以理解预测背后的化学机制传统置信度过滤的局限： predict_proba阈值过滤会丢弃大量化合物无法检测到具有高置信度但实际错误的”局部误分类” 创新方法：SHAP与特征值联合分析研究设计在三个前列腺癌细胞系（PC3、DU-145、LNCaP）的ChEMBL抗增殖数据上开发分类器：算法：ET、RF、GBM、XGBoost 特征：RDKit描述符、MACCS keys、ECFP4指纹、custom-fragments 最佳模型性能数据集最佳模型 MCC F1-score DU-145 ET/GBM-RDKit 0.60 0.83 PC3 XGB-ECFP4 0.64 0.86 LNCaP GBM/XGB-RDKit 0.62 0.88 误分类检测框架研究发现：误分类化合物的特征值（”RAW”）和SHAP值常落在相反类别的范围内。基于此，开发了四种标记规则： “RAW”规则：化合物的RAW特征值落在相反类别范围内的数量超过阈值 “SHAP”规则：SHAP值落在相反类别范围内的数量超过阈值 “RAW OR SHAP”：满足任一条件即标记（高灵敏度） “RAW AND SHAP”：同时满足两个条件才标记（高精度）阈值定义：采用分层分位数方法 \[T_{\text{glob}}(M) = \text{quantile}_p(M_{\text{correct}})\] \[T_C(M) = \text{quantile}_p(M_{\text{correct in C}}), \quad \text{if } |C| \geq 3\] 其中 $M$ 是”相反类别范围内的特征数量”，$p$ 通常选择80-th或85-th分位数。检测效果在50%预测置信度下检测到的误分类化合物百分比：数据集 RAW SHAP RAW OR SHAP RAW AND SHAP LNCaP 48.6% 46.2% 63.6% 31.2% PC3 19.0% 7.5% 20.7% 5.8% DU-145 21.5% 21.7% 24.9% 18.3% 与置信度阈值协同随着predict_proba阈值从50%提升到90%，标记规则的效果进一步增强： PC3（RAW OR SHAP）：移除误分类从21% → 29% DU-145（RAW OR SHAP）：24.9% → 41.9% LNCaP（RAW OR SHAP）：63.6% → 70.4% 实际意义虚拟筛选优化：在大型化合物库筛选中，最大化灵敏度以识别边界化合物二次筛选精炼：在聚焦筛选中，使用高精度规则保留真阳性特征可解释性：误分类化合物显示的关键描述符（如”EState_VSA1”、”SMR_VSA6”）为结构优化提供洞察四、图论+机器学习：用拓扑指数预测抗病毒药物性质本文信息标题: A Graph-Based Machine Learning Framework for Predicting Physicochemical Properties of Antiviral Drugs via Topological Indices 作者: Irfan Haider, Muhammad Ahsan等（巴基斯坦COMSATS大学等）发表时间: 2025年单位: COMSATS大学（巴基斯坦）、印度中央大学、中东技术大学（塞浦路斯）等引用格式: Haider, I., Ahsan, M., Siddiqui, M. K., et al. (2025). A Graph-Based Machine Learning Framework for Predicting Physicochemical Properties of Antiviral Drugs via Topological Indices. J. Chem. Inf. Model. https://doi.org/10.1021/acs.jcim.5c00117 源代码: https://github.com/IrfanHaider/graph_based_antiviral_drugs.git 创新框架：两阶段机器学习传统QSPR方法直接从分子结构预测性质，本研究引入拓扑指数作为中间桥梁：阶段一：SMILES → 拓扑指数输入：SMILES字符串输出：六种拓扑指数（M1、M2、ABC、Randić、Harmonic、Forgotten）方法：RDKit解析分子图，ML模型预测指数阶段二：拓扑指数 → 理化性质输入：预测的拓扑指数输出：六种性质（摩尔折射率、极性表面积、极化率、摩尔体积、分子量、复杂度）模型：四种ML算法比较拓扑指数定义 First Zagreb (M1)： \[M_1(G) = \sum_{v \in V(G)} d_v^2\] 反映分子的整体连接性和分支度。 Second Zagreb (M2)： \[M_2(G) = \sum_{uv \in E(G)} d_u d_v\] 捕捉相邻原子的连接特征。 ABC指数： \[\mathrm{ABC}(G) = \sum_{uv \in E(G)} \sqrt{\frac{d_u + d_v - 2}{d_u d_v}}\] 与分子稳定性和应变能相关。 Randić指数： \[R(G) = \sum_{uv \in E(G)} \frac{1}{\sqrt{d_u d_v}}\] 反映分子的分支程度。 Harmonic指数： \[H(G) = \sum_{uv \in E(G)} \frac{2}{d_u + d_v}\] 与分子的电子性质相关。 Forgotten指数： \[F(G) = \sum_{v \in V(G)} d_v^3\] 对高度顶点赋予更大权重，适用于复杂结构分子。预测性能阶段二：理化性质预测性质最佳模型 $R^2$ 分子量（MW） XGBoost 0.9950 极化率（P）神经网络 0.9891 摩尔折射率（MR）线性回归 0.9863 摩尔体积（MV）随机森林 0.9732 关键发现 M1和Forgotten与MW、P、MR的相关系数超过0.95 XGBoost和随机森林显著优于线性回归极性表面积（PSA）预测较难（$R^2$=0.4242）优势与局限优势降低复杂度：每阶段输入输出维度低提高可解释性：拓扑指数有明确化学意义模块化设计：两阶段可独立优化计算效率：相比量子化学计算极低成本局限性数据集规模小：59个样本限制泛化能力缺乏3D信息：忽略立体化学和构象效应 PSA预测不佳：度基指数对极性特征表征能力有限总结与展望本文介绍的四项工作展示了机器学习和计算化学工具链的不同环节：工具定位工具功能适用场景 dpdata 数据管理与转换 MLP开发、大规模数据处理 gmx_ffconv 力场快速转换比较模拟、系统迁移 SHAP+特征分析模型优化与误分类检测虚拟筛选、模型可解释性图论ML框架性质预测抗病毒药物设计、QSPR建模共同趋势效率优先：dpdata实现4倍内存节省，gmx_ffconv秒级转换复杂系统可解释性：SHAP分析不仅解释模型，还能主动改进预测插件化设计：dpdata和gmx_ffconv均支持用户扩展实用导向：所有工具均开源，提供详细文档和示例未来方向工具整合：将dpdata用于MLP数据管理，gmx_ffconv用于多力场验证，SHAP用于模型诊断深度学习融合：图神经网络替代ECFP4以减少比特碰撞，提升拓扑指数预测主动学习：结合SHAP标记和dpdata坐标扰动，优化训练集采样跨尺度建模：从拓扑指数到全原子MD，再到粗粒化模拟的无缝衔接参考资源 dpdata文档：https://docs.deepmodeling.com/projects/dpdata gmx_ffconv教程：https://github.com/Jassu1998/gmx_ffconv SHAP官方文档：https://shap.readthedocs.io 这些工具的出现标志着计算化学和药物发现正在向自动化、智能化、可解释化方向发展，为研究者提供了更高效的武器库。

Machine Learning & AI · 2025-11-02

炼丹师速成指南：深度学习分子属性预测的超参数优化方法学

炼丹师速成指南：深度学习分子属性预测的超参数优化方法学本文信息标题: 用于高效精确分子属性预测的深度神经网络超参数调优方法学作者: Xuan Dung James Nguyen, Y.A. Liu 发表时间: 2024年11月14日单位: 弗吉尼亚理工学院暨州立大学, 化学工程系 (美国) 引用格式: Nguyen, X. D. J., & Liu, Y. A. (2025). Methodology for hyperparameter tuning of deep neural networks for efficient and accurate molecular property prediction. Computers and Chemical Engineering, 193, 108928. https://doi.org/10.1016/j.compchemeng.2024.108928 O’Malley, T., Bursztein, E., Long, J., Chollet, F. Keras documentation: KerasTuner. https://keras.io/keras_tuner/ (accessed 20 March 2024). 摘要本文提出了一套用于分子属性预测 (MPP) 的深度神经网络超参数优化 (HPO) 方法学。以往大多数将深度学习应用于MPP的研究仅对HPO给予了有限的关注，从而导致预测属性的精度未能达到最优。为了提高MPP深度学习模型的效率和准确性，我们必须尽可能多地优化超参数，并选择一个能够支持并行执行HPO的软件平台。我们在Keras Tuner和Optuna软件包中，比较了随机搜索、贝叶斯优化、Hyperband算法以及贝叶斯-Hyperband组合在HPO中的表现。我们的结论是，以往MPP研究中未曾使用过的Hyperband算法，在计算效率上是最高的；同时，它在预测精度方面能给出最优或接近最优的MPP结果。基于我们的案例研究，我们推荐使用Python库 KerasTuner 进行HPO。核心结论 HPO至关重要：系统性的超参数优化能够显著提升深度学习模型在分子属性预测任务上的准确性，相比默认或手动设置的参数，RMSE可降低数倍。 Hyperband算法胜出：在多种HPO算法（随机搜索、贝叶斯优化、Hyperband、BOHB）的比较中，Hyperband算法在计算效率上遥遥领先（快2至9倍），同时其预测精度通常能达到最优或接近最优的水平。工具平台推荐：对于广大化学工程师和科研人员，KerasTuner 是一个功能强大、用户友好且易于上手的HPO Python库，它支持并行化，并内置了包括Hyperband在内的多种先进算法。 BOHB组合算法的权衡：尽管理论上更先进的贝叶斯-Hyperband组合算法 (BOHB) 在某些情况下能带来极其微小的精度提升，但其付出的计算时间成本显著增加，因此在本文的案例中并不具备性价比优势。背景近年来，机器学习 (ML)，特别是深度神经网络 (DNN)，在化学、材料和制药领域掀起了一场革命。利用这些强大的数据驱动模型，科学家们能够以前所未有的速度和精度预测分子的各种关键性质，如药物活性、材料的熔融指数、聚合物的玻璃化转变温度等，这一领域被称为分子属性预测 (MPP)。精准的MPP模型不仅能加速新药的发现和新材料的研发进程，还能显著降低实验成本。然而，构建一个高性能的DNN模型并非易事，它如同一个复杂的“黑箱”，其内部包含了大量需要预先设定的“旋钮”——即超参数 (Hyperparameters)。这些参数，如网络的层数、每层的神经元数量、学习率、激活函数的选择等，共同定义了模型的结构和训练方式。它们的组合方式千变万化，不同的组合对模型最终的性能有着天壤之别的影响。手动“炼丹”调参不仅耗时耗力，而且往往带有很大的盲目性，很难找到最优解。尽管超参数优化 (HPO) 的重要性已在机器学习领域成为共识，但在许多MPP的应用研究中，这一关键步骤却常常被忽视或简化处理。研究者们往往沿用文献中的“经验值”或仅对少数几个参数进行粗略调整。这种做法导致许多已发表的MPP模型的潜力未能被完全发掘，其预测精度远非其能达到的上限。因此，当前领域迫切需要一套系统、高效且易于实践的HPO方法学，以指导科研人员如何为他们的MPP任务构建最优的DNN模型。关键科学问题本文旨在为化学与材料领域的科研人员，特别是那些不具备深厚计算机科学背景的研究者，解决一个核心的实践问题：如何系统、高效地对用于分子属性预测的深度神经网络进行超参数优化，以在合理的计算时间内获得最高的预测精度？为了回答这个宏观问题，作者将其分解为三个具体的、可操作的子问题：算法比较：在现有的主流HPO算法中——随机搜索、贝叶斯优化和Hyperband，以及它们的组合——哪一种在MPP任务上能最好地平衡计算效率（时间成本）和预测准确性？平台选择：市面上有多种支持HPO的软件库，哪一个平台是免费、用户友好、功能强大且支持并行计算的，最适合广大科研工作者快速上手？方法学构建：能否提炼出一套一步一步的、清晰的方法论和实践见解，让一个初学者也能利用推荐的平台和算法，为自己的MPP问题成功地进行超参数调优？通过对这些问题的深入探讨，本文的目标是填补从“知道HPO很重要”到“知道如何做好HPO”之间的巨大鸿沟。创新点系统性算法评估：首次在分子属性预测的背景下，对随机搜索、贝叶斯优化、Hyperband以及BOHB（贝叶斯与Hyperband的组合）等多种主流HPO算法的计算效率和预测精度进行了全面的、并排的比较。发现并推荐Hyperband：研究发现，之前在MPP领域鲜有报道的Hyperband算法具有最高的计算效率，同时能达到最优或接近最优的预测精度，并基于此强烈推荐该算法。提供实用工具与流程：为化学工程师和材料科学家推荐了KerasTuner和Optuna这两个用户友好的开源Python库，并提供了详细的分步方法论和Python代码，极大地降低了实施高级HPO的技术门槛。量化HPO的巨大价值：通过两个具体的案例研究，明确量化了系统性HPO带来的巨大性能提升。与未经优化的基准模型相比，优化后的模型预测误差（RMSE）降低了6到8倍，准确率显著提高，强有力地证明了HPO是构建高性能MPP模型不可或ō缺的一步。研究内容方法详述：超参数优化的“武器库”与“靶场” 本文的核心是评估不同的HPO策略。作者首先选择了“武器”（HPO算法和软件平台），然后搭建了“靶场”（两个典型的MPP案例）来进行实证比较。 HPO算法与软件平台表2：以往MPP研究和本研究中使用的HPO算法与软件平台文献 HPO方法软件平台 Chen and Tseng (2022) 贝叶斯优化 Hyperopt Held et al. (2024) 随机采样后接TPE算法 Chemprop 本研究随机搜索，贝叶斯优化，Hyperband，以及BOHB KerasTuner，Optuna 作者选择了两个功能强大且广受欢迎的Python库： KerasTuner：因其直观、用户友好且易于编码而被选为主要平台，特别适合非计算机专业的科研人员。它内置了多种HPO算法，并且支持并行化以显著加速调优过程。 Optuna：作为一个补充平台，主要用于实现KerasTuner不支持的BOHB算法（贝叶斯优化与Hyperband的组合）。本文比较了四种核心的HPO算法：随机搜索 (Random Search)：在预定义的超参数空间中随机抽样组合进行测试。贝叶斯优化 (Bayesian Optimization)：一种“智能”搜索方法。它会根据已测试点的表现，建立一个概率代理模型来预测哪些超参数组合可能会带来更好的性能，从而更高效地集中探索有希望的区域。 Hyperband：一种基于资源分配的快速算法。它采用“逐次减半 (successive halving)”策略：一开始用少量资源（如少量epochs）训练大量超参数组合，然后淘汰掉表现差的一半，再将更多资源分配给表现好的“幸存者”，如此循环，最终找到最优组合。这种“早停”机制避免了在不良超参数上浪费过多计算资源。 BOHB：结合了Hyperband和贝叶斯优化的优点。它使用贝叶斯优化来指导选择下一批候选超参数，而不是随机选择，理论上比Hyperband更智能。图2：KerasTuner的通用工作流程图清晰地展示了HPO的迭代过程：选择超参数组合 -> 训练模型 -> 评估模型 -> 重复，直到满足用户设定的条件（如尝试次数），最后用找到的最佳超参数组合构建并评估最终模型。案例研究（“靶场”）设置表3：本文使用的数据集信息案例研究1 案例研究2 主题预测高密度聚乙烯(HDPE)的熔融指数 (MI) 预测聚合物的玻璃化转变温度 ($T_g$) 模型类型全连接深度神经网络 (Dense DNN) 卷积神经网络 (CNN) 自变量数量 9个工艺参数 (65, 17, 1) 的图像化输入样本数量 3745 352 输入特征工艺参数（温度、压力等）聚合物的SMILES字符串（通过one-hot编码转换为2D矩阵）待优化的超参数作者对两个案例都定义了广泛的超参数搜索空间，涵盖了模型结构和学习算法的方方面面。表5：HDPE熔融指数预测的超参数搜索列表与描述（案例1）超参数名称类型描述搜索空间 units_1 整数第一个隐藏层的节点数 32到512，步长32 alpha_1 浮点数第一个隐藏层Leaky ReLU的斜率 0.05到0.5，步长0.05 dropout_1 浮点数第一个dropout层的比率 0.05到0.5，步长0.05 num_layers 整数额外的隐藏层数量 1到4 units_hid_i 整数额外隐藏层i的节点数 32到512，步长32 alpha_hid_i 浮点数额外隐藏层i的Leaky ReLU斜率 0.05到0.5，步长0.05 dropout_hid_i 浮点数额外隐藏层i的dropout比率 0.05到0.5，步长0.05 learning_rate 选项 Adam优化器的学习率 [0.01, 0.001, 0.0001] 结果与分析案例1：预测HDPE的熔融指数 (MI) 图1：HDPE熔融指数预测的基础DNN结构。 HPO的巨大威力：未经优化的基准DNN模型，其预测RMSE高达0.420，R²为0.92012。经过HPO后，最佳模型的RMSE降低至0.04792，R²提升至0.99692。性能提升了近8.8倍，效果惊人。表1：有无超参数优化的分子属性预测精度对比属性预测均方根误差 (RMSE) (无HPO) 均方根误差 (RMSE) (有HPO) 决定系数 (R²) (无HPO) 决定系数 (R²) (有HPO) 1. HDPE熔融指数 0.420 0.048 0.92012 0.99692 2. 聚合物玻璃化转变温度 70.60 K 15.68 K - 0.94829 算法效率与精度对比：表7：三种HPO算法对HDPE熔融指数预测的总调优时间 HPO算法贝叶斯优化随机搜索 Hyperband 耗时 09 h 08 m 51s 09 h 15 m 12s 00 h 59 m 55s 表9：新DNN模型在测试集上的性能结果 (HDPE MI预测) 性能指标贝叶斯优化随机搜索 Hyperband Loss 0.00463 0.00230 0.00271 MAE 0.04873 0.03014 0.03561 RMSE 0.06803 0.04792 0.05201 $R^2$ 0.99134 0.99692 0.99669 结论： Hyperband效率最高：调优时间仅为其他两种方法的约1/9。随机搜索意外胜出：在这个相对简单的DNN模型案例中，随机搜索在测试集和交叉验证上均获得了最佳的预测精度。作者认为，这可能是因为对于简单的DNN，随机搜索已经足够找到一个非常好的解。 Hyperband表现稳健：尽管精度略低于随机搜索，但Hyperband的结果仍然非常出色，远超基准模型，并且考虑其巨大的时间优势，性价比极高。图4-6分别展示了由贝叶斯优化、随机搜索和Hyperband找到的最佳DNN结构。图7-12则展示了对应的损失曲线和预测值-真实值对比图。案例2：预测聚合物的玻璃化转变温度 ($T_g$) 图13：聚合物Tg预测的基础CNN结构详情。 HPO再次展现威力：基准CNN模型的预测准确率约为82%，MAPE (平均绝对百分比误差) 约为6%。经过HPO优化后，最佳模型的RMSE从70.60 K降至15.68 K，MAPE低至3.00%，R²高达0.95029，性能提升同样非常显著。算法效率与精度对比：表11：新CNN模型在测试集上的性能结果 ($T_g$预测) 性能指标贝叶斯优化随机搜索 Hyperband Loss 349.021 349.432 245.903 MAE 11.4451 11.6328 9.1034 MAPE 0.03731 0.03931 0.03002 RMSE 18.6821 18.6931 15.6813 $R^2$ 0.92709 0.92554 0.94829 结论： Hyperband全面占优：对于这个更复杂的CNN模型，Hyperband在所有性能指标上都显著优于贝叶斯优化和随机搜索，并且仍然保持着最高的计算效率（比贝叶斯快2.5倍，比随机搜索快3.5倍）。贝叶斯优于随机搜索：与案例1不同，在此复杂案例中，贝叶斯优化的表现优于随机搜索，更符合理论预期。图14-16展示了HPO找到的最佳CNN结构。图17-22展示了对应的损失曲线和预测-真实值对比。 BOHB组合算法的评估作者进一步使用Optuna库测试了理论上更先进的BOHB算法。表13a-d：BOHB与其他算法的性能和时间对比（节选）案例算法耗时 RMSE $R^2$ HDPE MI Hyperband ~1 h 0.05201 0.99669 BOHB ~4 h 0.05577 0.99652 Polymer $T_g$ Hyperband ~6.5 h 15.6813 0.94829 BOHB ~11.6 h 15.5779 0.94901 结论：BOHB算法在简单的DNN案例中表现甚至不如Hyperband。在复杂的CNN案例中，虽然其精度略微优于Hyperband，但付出的计算时间成本几乎翻倍。因此，作者认为，这种微小的精度提升并不足以证明其增加的计算成本是合理的。 Q&A Q1: 为什么在进行HPO之前，作者建议先手动确定batch size（批处理大小）？ A1: 作者给出了几个非常实际的理由： 1.降低搜索维度：HPO过程的计算成本随着超参数数量的增加而指数级增长。将batch size作为一个超参数会大大增加搜索空间的复杂性，显著延长调优时间。 2.受硬件限制：batch size的大小直接影响内存（特别是GPU显存）的占用。一个过大的batch size可能导致内存溢出，使训练崩溃。因此，它通常由硬件条件决定，而不是一个可以自由优化的参数。 3.影响相对较小且有经验法则：相比于学习率、网络结构等超参数，batch size对模型最终性能的直接影响相对较小。通常，适中的值（如32, 64, 128）就能提供稳定的性能。可以依据经验法则和硬件限制先将其固定下来。 4.与学习率的强相关性：batch size和学习率之间存在已知的关系（大batch size通常配合大学习率）。将它们分开处理，先固定batch size再精调学习率，可以简化优化问题。 Q2: 在案例1中，理论上更“智能”的贝叶斯优化为什么会输给简单的随机搜索？ A2: 这是一个非常有趣的现象。作者解释说，尽管贝叶斯优化理论上更优，但在某些情况下，尤其是在有限的尝试次数（本文为500次）、简单的模型或非凸的超参数空间中，它可能表现不佳。贝叶斯优化可能会过早地收敛到某个局部最优区域并反复探索，而简单的随机搜索由于其“盲目性”，反而可能碰巧探索到被贝叶斯优化忽略的、更好的区域。这个结果提醒我们，没有“银弹”，算法的选择有时也依赖于具体问题。 Q3: Hyperband算法的核心优势是什么？为什么它能做到又快又好？ A3: Hyperband的核心优势在于其高效的资源分配策略，即“早停”机制。传统方法（如随机搜索）会对每一个超参数组合都进行完整的训练（例如跑满100个epochs），这在坏的组合上浪费了大量时间。而Hyperband则像一个多轮淘汰赛：第一轮：快速地用少量资源（如5个epochs）训练大量（如81个）不同的模型。淘汰：淘汰掉表现最差的2/3模型。第二轮：将更多资源（如15个epochs）分配给幸存的1/3模型（27个）。循环：不断重复这个“训练-淘汰-晋级”的过程，直到只剩下一个模型，并对其进行最充分的训练。通过这种方式，Hyperband能够迅速剔除没有前途的超参数组合，将宝贵的计算资源集中在少数有潜力的“精英”组合上，从而实现又快又好的效果。 Q4: 这篇论文的方法学对于我自己的研究有什么直接的指导意义？ A4: 指导意义非常直接： 1.必须做HPO：如果你在使用DNN/CNN做任何预测任务，不要满足于默认参数或文献参数，系统性的HPO能带来巨大的性能提升。 2.首选Hyperband：在选择HPO算法时，将Hyperband作为你的首选或基准。它在速度和性能之间取得了极佳的平衡。 3.使用KerasTuner：如果你使用TensorFlow/Keras框架，KerasTuner是一个极好的起点。它易于使用，功能强大，能让你快速实施Hyperband等算法。 4.并行是关键：无论使用何种平台，确保利用其并行计算功能。在多核CPU或GPU上同时运行多个试验，可以将数天的调优过程缩短到数小时。关键结论与批判性总结潜在影响 ** democratizing HPO**：为化学、材料等领域的非计算机专业研究者提供了一套清晰、实用且高效的深度学习模型优化“标准作业程序 (SOP)”，极大地降低了构建高性能AI模型的门槛。设定新基准：通过明确展示系统性HPO带来的巨大收益，本研究可能会提升领域内对模型质量的要求，促使未来的MPP研究更加重视并规范化超参数优化这一关键步骤。效率驱动：强调了Hyperband算法在平衡速度与精度上的巨大优势，为面临计算资源限制的研究者提供了一个极具性价比的选择，有助于加速科研迭代周期。研究局限性模型和任务范围有限：研究主要集中在两种相对经典的神经网络结构（Dense DNN和CNN）以及两类特定的分子属性预测任务上。其结论是否能直接推广到更前沿、更复杂的模型（如图神经网络GNNs、Transformers）和更多样化的任务（如反应预测、逆向设计）上，仍有待验证。数据集规模：所用的数据集规模中等（数千和数百个样本）。在更大规模（数十万甚至数百万样本）的数据集上，不同HPO算法的效率和性能排序可能会发生变化。硬件平台单一：所有测试均在CPU上完成。在现代GPU集群上，不同算法的并行化效率和实际运行时间表现可能会有所不同。未来方向扩展到更复杂的模型：将本研究的方法学应用到图神经网络（GNNs）和Transformers等更先进的模型架构上，为这些模型的HPO提供指导。更大规模的基准测试：在更大、更多样化的公开数据集上（如QM9、ZINC、MoleculeNet）重复本研究的比较，以获得更具普适性的结论。自动化流程开发：开发一个集成了数据预处理、模型构建、HPO（以Hyperband为核心）和模型评估的全自动化工作流，实现分子属性预测的“一键式”优化建模。小编锐评：其实就是速度比贝叶斯快，再调研下再说吧

Machine Learning & AI · 2025-10-20

基于图像的分子表征：二维分子图像表征详解

基于图像的分子表征：二维（2D）分子图像表征二维图像是分子最直接的视觉表征，通常源自SMILES字符串。它们具有简单和直观的特点，使其成为分子设计和分析，特别是高通量应用中一个引人注目的选择。二维分子图像为CNN提供了更直接可用和信息更丰富的输入，旨在减轻网络学习基本化学特征的负担，从而可能带来性能或数据效率的提升。一、RDKit基础用法 RDKit是解析SMILES、生成二维坐标和渲染分子图像的主要库[1]。其GitHub仓库是 https://github.com/rdkit/rdkit 。RDKit是一个核心的开源化学信息学工具包，广泛用于将SMILES字符串转换为二维分子图像。 1.1 基础工作流程一般的工作流程包括：解析SMILES字符串以创建RDKit Mol对象生成用于描绘的二维坐标将此布局渲染成图像格式，通常是Python中的PIL Image对象 1.2 关键RDKit模块和函数基础函数 Chem.MolFromSmiles()：将SMILES字符串解析为RDKit Mol对象[2] Draw.MolToImage()：从Mol对象生成PIL Image，允许基本的自定义，如图像大小、kekulization和楔形键的显示[3] rdDepictor.Compute2DCoords()：生成用于描绘的2D坐标。使用rdDepictor.SetPreferCoordGen(True)有助于实现更一致的分子朝向[4] AllChem.Compute2DCoords()：另一种生成2D坐标的选择[5] 高级绘图类 Draw.MolDraw2DCairo：生成光栅图像（如PNG），提供更细致的绘图选项控制[6] Draw.MolDraw2DSVG：生成矢量图像，提供更细致的绘图选项控制[6] 1.3 CNN输入的关键参数和自定义图像大小一致性对CNN输入至关重要： DEEPScreen使用200x200像素[7] ImageMol默认为224x224像素[8] Chemception通常使用80x80像素[9] RDKit的MolToImage接受一个size元组 MolDraw2DCairo则在初始化时指定宽度和高度分辨率和细节 DrawingOptions.dotsPerAngstrom（用于MolToImage）控制像素密度相对于分子大小的比例[10] MolDrawOptions.fixedBondLength可以固定键在图像中的像素长度，以实现一致的缩放[11] 原子和键的高亮 highlightAtoms和highlightBonds参数可用于MolToImage以及绘图类的DrawMolecule方法[3] highlightColor（用于MolToImage）或MolDrawOptions.highlightColour设置高亮颜色[3] MolDrawOptions.atomColourPalette或MolDraw2D.DrawMolecule(highlightAtomColors={atom_index: (R,G,B)})允许自定义特定原子的颜色[12] 原子和键的颜色 MolDrawOptions.setAtomPalette({atom_index: (R,G,B)})可以设置自定义的原子颜色调色板[11] RDKit Cookbook也展示了使用useBWAtomPalette()生成黑白图像的方法[13] 图例(Legends) DrawMolecule中的legend参数**或MolsToGridImage中的legends参数可以添加文本注释[3] MolDrawOptions如legendFontSize和legendFraction控制图例外观[11] 1.4 基础代码示例基础MolToImage示例 from rdkit import Chem from rdkit.Chem.Draw import MolToImage mol = Chem.MolFromSmiles("CN1C=NC2=C1C(=O)N(C(=O)N2C)C") # Caffeine img = MolToImage(mol, size=(256, 256)) # img.save("caffeine_2d.png") MolDraw2DCairo带高亮示例 from rdkit import Chem from rdkit.Chem.Draw import rdMolDraw2D from io import BytesIO # 用于在内存中处理图像数据 # from PIL import Image # 用于查看或保存图像 mol = Chem.MolFromSmiles("Cc1ccccc1O") # o-cresol # 高亮甲基所在的子结构 substructure = Chem.MolFromSmarts("c(C)O") # 带有甲基和羟基的芳香碳 match = mol.GetSubstructMatch(substructure) drawer = rdMolDraw2D.MolDraw2DCairo(300, 300) # width, height # 自定义原子颜色示例 atom_colors = {} if match: for atom_idx in match: if mol.GetAtomWithIdx(atom_idx).GetSymbol() == 'O': atom_colors[atom_idx] = (1.0, 0.0, 0.0) # 氧原子用红色 elif mol.GetAtomWithIdx(atom_idx).GetSymbol() == 'C': atom_colors[atom_idx] = (0.0, 0.0, 1.0) # 碳原子用蓝色 drawer.DrawMolecule(mol, highlightAtoms=match, highlightAtomColors=atom_colors, legend="o-cresol with substructure highlight") drawer.FinishDrawing() png_data = drawer.GetDrawingText() # 获取PNG数据 (bytes) # with open("o_cresol_highlighted.png", "wb") as f: # f.write(png_data) 二、具体方法和实现 2.1 ImageMol 方法简介 ImageMol是一个基于分子图像的无监督预训练深度学习框架，用于计算化学药物发现[14]。该框架在1000万无标签的类药物生物活性分子上进行预训练，结合了图像处理框架和全面的分子化学知识，以视觉计算方式提取精细的像素级分子特征[15]。 ImageMol的核心创新：利用分子图像作为化合物的特征表示，具有高精度和低计算成本利用无监督预训练学习框架从1000万种具有多样生物活性的类药物化合物中捕获分子图像的结构信息预训练策略 ImageMol采用五种预训练策略来优化分子编码器的潜在表示[16]： Mask-based contrastive learning (MCL)：对分子图像的16×16方形区域进行掩码，训练模型最小化掩码和未掩码图像提取的潜在特征之间的距离 Molecular rationality discrimination (MRD)：预测输入图像是否合理 Jigsaw puzzle prediction (JPP)：将图像分解为九个补丁，随机重排后预测正确顺序 Image rotational prediction：预测图像的旋转角度 Contrastive learning：学习相似分子的相似表示代码实现基础图像生成： def smiles_to_image(smis, size=224, save_path=None): try: mol = Chem.MolFromSmiles(smis) img = Draw.MolsToGridImage([mol], molsPerRow=1, subImgSize=(size, size)) if save_path is not None: img.save(save_path) return img except: return None 完整的latent feature提取功能： import os import torch import torchvision.transforms as transforms import torchvision.models as models from tqdm import tqdm import requests from rdkit import Chem from rdkit.Chem import Draw def download_pretrained_model(model_url, cache_dir=None, force_download=False): """ 下载并缓存预训练模型文件参数: model_url: 模型下载链接 cache_dir: 缓存目录（默认为系统临时目录下的 imagemol_cache） force_download: 是否强制重新下载模型返回: model_path: 模型文件路径 """ if cache_dir is None: cache_dir = os.path.join(tempfile.gettempdir(), "imagemol_cache") os.makedirs(cache_dir, exist_ok=True) model_path = os.path.join(cache_dir, "ImageMol.pth.tar") if force_download or not os.path.exists(model_path): print("开始下载预训练模型...") download_file_from_google_drive(model_url, model_path) print(f"模型已下载到: {model_path}") return model_path def load_pretrained_model(model_name="ResNet18", image_size=224, pretrained=False, model_url=None): """ 加载预训练模型（支持从本地或远程下载）参数: model_name: 模型架构名称 (ResNet18/ResNet34/ResNet50) image_size: 输入图像尺寸 pretrained: 是否使用 PyTorch 官方预训练权重 model_url: 自定义预训练权重下载链接返回: model: 加载好的模型 """ # 如果指定了自定义模型链接，则先下载 if model_url: model_path = download_pretrained_model(model_url) else: model_path = None # 使用官方预训练权重 if model_name == "ResNet18": model = models.resnet18(pretrained=pretrained) elif model_name == "ResNet34": model = models.resnet34(pretrained=pretrained) elif model_name == "ResNet50": model = models.resnet50(pretrained=pretrained) else: raise ValueError(f"不支持的模型架构: {model_name}") # 如果提供了自定义模型路径，加载权重 if model_path: try: checkpoint = torch.load(model_path, map_location=torch.device('cpu')) model.load_state_dict(checkpoint['model_state_dict']) print("=> 成功加载自定义预训练权重") except Exception as e: print(f"=> 加载预训练权重失败: {e}") print("尝试直接从 torchvision 加载官方预训练权重...") model = models.resnet18(pretrained=True) # 示例回退到官方权重 return model def download_file_from_google_drive(url, destination): """ 从 Google Drive 下载文件（支持大文件） """ file_id = url.split('/')[-2] if 'view' in url else url.split('/')[-1] base_url = 'https://docs.google.com/uc?export=download' session = requests.Session() response = session.get(base_url, params={'id': file_id}, stream=True) # 处理下载确认 for key, value in response.cookies.items(): if key.startswith('download_warning'): params = {'id': file_id, 'confirm': value} response = session.get(base_url, params=params, stream=True) break # 写入文件 with open(destination, 'wb') as f: with tqdm(unit='B', unit_scale=True, unit_divisor=1024) as bar: for chunk in response.iter_content(32768): if chunk: f.write(chunk) bar.update(len(chunk)) # 示例：创建 ResNet18 模型并提取 latent feature def smiles_to_latent(smiles, model, image_size=224): """ 将 SMILES 字符串转换为 latent feature """ mol = Chem.MolFromSmiles(smiles) if mol is None: raise ValueError(f"无法解析 SMILES: {smiles}") # 生成分子图像 img = Draw.MolsToGridImage([mol], molsPerRow=1, subImgSize=(image_size, image_size)) img_path = "temp_molecule.png" img.save(img_path) # 图像预处理 transform = transforms.Compose([ transforms.Resize((image_size, image_size)), transforms.ToTensor(), transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]) ]) img_tensor = transform(Image.open(img_path).convert('RGB')).unsqueeze(0) # 提取 latent feature with torch.no_grad(): embedding_layer = list(model.children())[:-1] embedding_model = torch.nn.Sequential(*embedding_layer) latent_feature = embedding_model(img_tensor).squeeze() return latent_feature # 主程序 if __name__ == "__main__": # 1. 下载并加载模型 model_url = "https://drive.usercontent.google.com/download?id=1wQfby8JIhgo3DxPvFeHXPc14wS-b4KB5&export=download&authuser=0" model = load_pretrained_model( model_name="ResNet18", model_url=model_url # 使用自定义预训练权重 ) # 2. 示例 SMILES mol_smiles = "Cc1ccccc1O" # 异丙苯酚 latent = smiles_to_latent(mol_smiles, model) print(f"Latent feature shape: {latent.shape}") print(f"Latent feature sample: {latent[:5]}") 代码说明和来源原仓库：https://github.com/HongxinXiang/ImageMol 主要文件：smiles2img_pretrain.py和dataloader/image_dataloader.py License：MIT License 论文：发表在Nature Machine Intelligence (2022)，题目为”Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework” 2.2 Chemception 方法简介 Chemception是受Google Inception-ResNet深度卷积神经网络启发开发的深度CNN，仅使用分子2D图像进行化学性质预测，无需提供额外的显式化学知识，如基本概念（周期性）或高级特征（分子描述符和指纹）[17]。 Chemception的关键创新：多通道图像表示：将显式的化学特征直接编码到图像通道中，为神经网络提供更丰富、信息量更大的输入四通道编码方案：每个通道编码不同的化学属性，使CNN能够”看到”特定位置的化学性质多通道表示方法 Chemception采用4通道图像方法，每个通道编码特定的化学信息[18]：通道0：编码键级（例如，单键为1.0，双键为2.0）通道1：编码原子序数通道2：编码原子杂化状态（例如，sp, sp2, sp3表示为数值）通道3：编码Gasteiger部分电荷图像尺寸通常为80x80像素或48x48像素。代码实现 import numpy as np from rdkit import Chem from rdkit.Chem import AllChem import matplotlib.pyplot as plt def chemcepterize_mol(mol, embed=20.0, res=0.5): """ 将RDKit分子对象转换为Chemception格式的多通道图像参数: mol: RDKit分子对象 embed: 嵌入大小，控制图像的空间范围 res: 分辨率，每像素对应的空间距离返回: vect: 形状为(dims, dims, 4)的numpy数组，包含4个通道的化学信息 """ dims = int(embed*2/res) # 复制分子并计算Gasteiger电荷 cmol = Chem.Mol(mol.ToBinary()) cmol.ComputeGasteigerCharges() AllChem.Compute2DCoords(cmol) coords = cmol.GetConformer(0).GetPositions() # 初始化4通道图像向量 vect = np.zeros((dims, dims, 4)) # 首先处理键信息（通道0） for i, bond in enumerate(mol.GetBonds()): bondorder = bond.GetBondTypeAsDouble() bidx = bond.GetBeginAtomIdx() eidx = bond.GetEndAtomIdx() bcoords = coords[bidx] ecoords = coords[eidx] frac = np.linspace(0, 1, int(1/res*2)) for f in frac: c = (f*bcoords + (1-f)*ecoords) idx = int(round((c[0] + embed)/res)) idy = int(round((c[1] + embed)/res)) # 确保索引在图像范围内 if 0 <= idx < dims and 0 <= idy < dims: vect[idx, idy, 0] = bondorder # 保存键级到第一个通道 # 处理原子信息（通道1-3） for i, atom in enumerate(cmol.GetAtoms()): idx = int(round((coords[i][0] + embed)/res)) idy = int(round((coords[i][1] + embed)/res)) # 确保索引在图像范围内 if 0 <= idx < dims and 0 <= idy < dims: # 原子序数（通道1） vect[idx, idy, 1] = atom.GetAtomicNum() # Gasteiger电荷（通道3） try: charge = float(atom.GetProp("_GasteigerCharge")) vect[idx, idy, 3] = charge except: vect[idx, idy, 3] = 0.0 # 杂化状态（通道2） hyptype = atom.GetHybridization().real vect[idx, idy, 2] = hyptype return vect # 使用示例 def demo_chemception(): """演示Chemception图像生成""" # 创建分子对象 mol = Chem.MolFromSmiles("CCO") # 乙醇 # 生成Chemception图像 v = chemcepterize_mol(mol, embed=10, res=0.2) print(f"图像形状: {v.shape}") # 输出：(100, 100, 4) # 可视化前3个通道（模拟RGB图像） plt.figure(figsize=(12, 4)) plt.subplot(1, 4, 1) plt.imshow(v[:, :, 0], cmap='viridis') plt.title('通道0: 键级') plt.colorbar() plt.subplot(1, 4, 2) plt.imshow(v[:, :, 1], cmap='viridis') plt.title('通道1: 原子序数') plt.colorbar() plt.subplot(1, 4, 3) plt.imshow(v[:, :, 2], cmap='viridis') plt.title('通道2: 杂化状态') plt.colorbar() plt.subplot(1, 4, 4) plt.imshow(v[:, :, 3], cmap='viridis') plt.title('通道3: Gasteiger电荷') plt.colorbar() plt.tight_layout() plt.show() return v # demo_chemception() 代码说明和来源原仓库：https://github.com/Abdulk084/Chemception 主要文件：chemcemption.ipynb License：MIT License 论文：Goh等人2017年发表的”Chemception: A Deep Neural Network with Minimal Chemistry Knowledge Matches the Performance of Expert-developed QSAR/QSPR Models”[17] 2.3 DEEPScreen 方法简介 DEEPScreen是一个大规模药物-靶点相互作用(DTI)预测系统，用于早期药物发现，使用深度卷积神经网络和化合物的2D结构表示作为输入[19]。DEEPScreen的主要优势是在输入层使用现成的2D结构表示，而不是性能有限的传统描述符。 DEEPScreen的特点：对704个目标蛋白质进行训练（使用精心策划的生物活性数据）使用200x200像素的2D结构表示手性信息被省略（这是SMILES表示的局限性，而非图像生成过程的问题）生成了近2100万个新的DTI预测代码实现 import os import subprocess from rdkit import Chem from rdkit.Chem import Draw from rdkit.Chem.Draw import DrawingOptions import cairosvg # 配置参数 IMG_SIZE = 200 training_files_path = "/path/to/training_files" # 需要根据实际情况修改 def save_comp_imgs_from_smiles(tar_id, comp_id, smiles): """ 将分子的 SMILES 表示转换为图片参数: tar_id: 目标 ID comp_id: 化合物 ID smiles: 分子的 SMILES 字符串 """ # 创建分子对象 mol = Chem.MolFromSmiles(smiles) if mol is None: print(f"无法解析SMILES: {smiles}") return # 设置绘图选项 DrawingOptions.atomLabelFontSize = 55 DrawingOptions.dotsPerAngstrom = 100 DrawingOptions.bondLineWidth = 1.5 # 确保目标目录存在 target_dir = os.path.join(training_files_path, "target_training_datasets", tar_id, "imgs") os.makedirs(target_dir, exist_ok=True) # 绘制分子为 SVG 图像 svg_path = os.path.join(target_dir, f"{comp_id}.svg") Draw.MolToFile(mol, svg_path, size=(IMG_SIZE, IMG_SIZE)) # 将 SVG 图像转换为 PNG 图像 png_path = os.path.join(target_dir, f"{comp_id}.png") cairosvg.svg2png(url=svg_path, write_to=png_path) # 删除临时的 SVG 文件 if os.path.exists(svg_path): subprocess.call(["rm", svg_path]) print(f"已生成图像: {png_path}") def batch_generate_images(tar_id, smiles_dict): """ 批量生成分子图像参数: tar_id: 目标ID smiles_dict: 字典，键为化合物ID，值为SMILES字符串 """ for comp_id, smiles in smiles_dict.items(): try: save_comp_imgs_from_smiles(tar_id, comp_id, smiles) except Exception as e: print(f"生成图像失败 - 化合物ID: {comp_id}, SMILES: {smiles}, 错误: {e}") # 使用示例 if __name__ == "__main__": # 示例数据 tar_id = "CHEMBL286" smiles_data = { "CHEMBL1": "CCO", # 乙醇 "CHEMBL2": "CCOC", # 乙醚 "CHEMBL3": "CN1C=NC2=C1C(=O)N(C(=O)N2C)C", # 咖啡因 } # 生成图像 batch_generate_images(tar_id, smiles_data) 代码说明和来源原仓库：https://github.com/cansyl/DEEPScreen 主要文件：bin/data_processing.py License：MIT License 论文：发表在Chemical Science (2020)，题目为”DEEPScreen: high performance drug–target interaction prediction with convolutional neural networks using 2-D structural compound representations”[19] 依赖：需要安装rdkit和cairosvg库 2.4 KekuleScope 方法简介 KekuleScope采用”凯库勒结构表示”作为CNN的输入[20]。该方法专注于使用标准的分子结构图像进行性质预测，与其他方法的主要区别在于其对分子图像的特定处理方式。代码实现 import os import sys from rdkit import Chem from rdkit.Chem import Draw import glob def generate_molecule_images(cell_line, seed, smiles_list, chembl_ids, dataset_type): """ 生成分子图片的主函数参数: cell_line: 细胞系名称 seed: 随机种子 smiles_list: SMILES字符串列表 chembl_ids: ChEMBL ID列表 dataset_type: 数据集类型 ("train", "val", "test") """ base_dir = f'./images/{cell_line}/{seed}/{dataset_type}/images' os.makedirs(base_dir, exist_ok=True) svgs = glob.glob(f"{base_dir}/*svg") pngs = glob.glob(f"{base_dir}/*png") # 如果没有SVG或PNG文件，则生成SVG图像 if len(svgs) == 0 and len(pngs) == 0: for i, smiles in enumerate(smiles_list): mol = Chem.MolFromSmiles(smiles) if mol is not None: # 生成SVG图像 svg_img = Draw.MolsToGridImage([mol], molsPerRow=1, useSVG=True) svg_file_path = f'{base_dir}/{chembl_ids[i]}.svg' with open(svg_file_path, 'w') as f: f.write(svg_img.data) print(f"已生成SVG: {svg_file_path}") else: print(f"无法解析SMILES: {smiles}") else: print(f"SVGs ready for {dataset_type}") # 将 SVG 转换为 PNG pngs = glob.glob(f"{base_dir}/*png") if len(pngs) == 0: basedir = os.getcwd() os.chdir(base_dir) # 使用ImageMagick进行转换 cmd = "AA=($( find . -name '*.svg' ));for i in ${AA[*]}; do convert -density 800 ${i} -resize 300x ${i}.png ; done" try: os.system(cmd) print("SVG转PNG完成") except Exception as e: print(f"转换过程中出现错误: {e}") # 清理SVG文件 cmd = "rm -rf *.svg" os.system(cmd) os.chdir(basedir) def run_kekulescope_pipeline(cell_line="KB", seed=1): """ 运行完整的KekuleScope图像生成流程参数: cell_line: 细胞系名称，默认为"KB" seed: 随机种子，默认为1 """ # 示例数据 smiles_list = [ "CCO", # 乙醇 "CCOC", # 乙醚 "CN1C=NC2=C1C(=O)N(C(=O)N2C)C", # 咖啡因 "CC(C)CC1=CC=C(C=C1)C(C)C(=O)O", # 布洛芬 ] chembl_ids = ["CHEMBL1", "CHEMBL2", "CHEMBL3", "CHEMBL4"] # 为不同数据集生成图像 for dataset_type in ["train", "val", "test"]: print(f"正在为{dataset_type}数据集生成图像...") generate_molecule_images(cell_line, seed, smiles_list, chembl_ids, dataset_type) # 使用示例 if __name__ == "__main__": run_kekulescope_pipeline() 代码说明和来源原仓库：https://github.com/isidroc/kekulescope 主要文件：Kekulescope.py和load_images.py License：MIT license 框架：利用PyTorch框架特点：使用ImageMagick进行SVG到PNG的转换，需要系统安装ImageMagick 2.5 其他相关方法 DECIMER 1.0 DECIMER (Deep lEarning for Chemical ImagE Recognition)是一个基于Transformer的光学化学结构识别工具[21]，专注于从化学图像中识别和重构分子结构。该工具使用CNN进行图像解析，然后使用Transformer解码器生成SMILES字符串。 GitHub：https://github.com/Kohulan/DECIMER 特点：使用EfficientNet-B3作为编码器，处理299×299像素图像应用：主要用于从文献中的化学结构图像提取SMILES表示 MolNexTR MolNexTR是一个结合ConvNext和Vision Transformer的深度学习模型，用于从分子图像生成SMILES字符串[22]。该模型能够同时预测原子和键，并理解它们的布局规则。特点：结合CNN和Vision Transformer的优势应用：分子图像识别和SMILES生成数据集：在Indigo、ChemDraw、RDKit、CLEF、UOB、JPO、USPTO、Staker和ACS等数据集上表现优异 Toxic Colors Toxic Colors使用2DConvNet处理”化学品的简单二维绘图”[23]，专注于毒性预测。该方法使用MOE软件生成分子图像，然后应用CNN进行毒性分类。 ADMET-CNN ADMET-CNN是一种基于分子二维图像的CNN，用于预测ADMET（吸收、分布、代谢、排泄、毒性）性质[24]。该方法使用RDKit生成分子图像，然后训练CNN模型预测药物的ADMET性质。三、应用和扩展 3.1 迁移学习和预训练现代分子图像表示学习中，迁移学习已成为一个重要趋势。在医学领域，获取大量标记数据集通常很困难，迁移学习提供了解决方案[25]。预训练策略 ImageNet预训练：使用在ImageNet等大型图像数据集上预训练的CNN作为特征提取器自监督预训练：如ImageMol使用的多任务预训练策略域适应：将通用图像特征转移到化学领域数据增强技术为了提高模型的泛化能力和鲁棒性，研究者开发了多种数据增强技术[26]：几何变换：旋转、翻转、缩放颜色变换：灰度化、对比度调整噪声添加：添加高斯噪声、椒盐噪声分子特定增强：随机删除原子或键 3.2 模型解释性 Grad-CAM分析分子图像CNN模型可以使用Gradient-weighted Class Activation Mapping (Grad-CAM)进行解释[27]。Grad-CAM能够识别模型关注的分子区域，帮助理解哪些结构特征对预测结果最重要。特征可视化通过可视化CNN不同层的激活模式，研究者可以理解模型学习到的化学特征：低层特征：边缘、角度中层特征：官能团、环结构高层特征：复杂的分子骨架 3.3 多模态学习图像-文本联合学习结合分子图像和SMILES/SELFIES等文本表示，可以实现更强大的分子表示学习[28]：对比学习：学习图像和文本表示之间的对应关系多模态融合：在决策层面融合不同模态的信息交叉注意力机制：让图像和文本表示相互增强图像-图结构联合学习结合2D分子图像和分子图结构，可以同时利用视觉信息和拓扑信息：联合编码：同时处理图像和图结构知识蒸馏：用图神经网络指导CNN学习多任务学习：同时优化图像和图结构相关的任务 3.4 实际应用领域药物发现虚拟筛选：从大型化合物库中筛选活性化合物药物重定位：发现已知药物的新适应症 ADMET预测：预测药物的吸收、分布、代谢、排泄和毒性材料科学聚合物性质预测：预测聚合物的物理化学性质催化剂设计：设计高效的催化剂能源材料：开发新型电池和太阳能材料环境科学污染物降解：预测污染物的降解路径和速率[26] 生态毒性评估：评估化学品对环境的影响生物累积性预测：预测化学品在生物体内的累积 3.5 技术挑战和未来方向当前挑战数据质量：分子图像的标准化和质量控制可解释性：提高模型预测的可解释性泛化能力：在不同化学空间中的泛化性能计算效率：处理大规模分子库的效率未来发展方向 3D信息整合：结合3D分子构象信息[29] 动态性质预测：预测分子的动态行为多尺度建模：从分子到细胞到器官的多尺度预测自动化流程：端到端的自动化预测流程四、方法对比分析 4.1 主要方法对比表方法图像尺寸绘图方法特点主要应用优势限制 ImageMol 224×224 MolsToGridImage 自监督预训练多任务学习分子性质预测药物靶点预测 • 大规模预训练• 高精度• 迁移学习能力强 • 计算资源需求高• 缺乏3D信息 Chemception 80×8048×48 calculate pixels 多通道编码（键级、原子序数、杂化、电荷）毒性预测活性预测溶解性预测 • 化学信息丰富• 可解释性强• 计算效率高 • 图像分辨率较低• 需要化学知识编码 DEEPScreen 200×200 MolToFile 药物-靶点相互作用大规模训练虚拟筛选药物重定位 • 专门针对DTI• 大规模数据库• 实用性强 • 应用范围有限• 缺乏手性信息 KekuleScope 300×300 MolsToGridImage 凯库勒结构表示高分辨率分子性质预测 • 图像质量高• 标准化程度高 • 数据处理复杂• 计算开销大 DECIMER 299×299 — 图像到SMILESTransformer解码光学结构识别文献挖掘 • 实用工具• 端到端处理 • 专门用途• 需要高质量图像 4.2 性能比较准确性方面 ImageMol：在多个基准数据集上表现最佳，特别是在CYP450抑制预测中 Chemception：在小数据集上表现良好，与专家开发的QSAR模型性能相当 DEEPScreen：在DTI预测任务中超越传统指纹方法计算效率 Chemception：图像尺寸小，训练和推理速度快 ImageMol：需要大量计算资源进行预训练，但推理相对高效 DEEPScreen：中等计算需求，适合实际应用可扩展性 ImageMol：预训练模型可以轻松适应新任务 Chemception：架构简单，易于修改和扩展 DEEPScreen：专门设计，扩展到其他任务需要重新训练 4.3 选择建议根据应用场景选择通用分子性质预测：推荐ImageMol 毒性和溶解性预测：推荐Chemception 药物-靶点相互作用：推荐DEEPScreen 图像识别任务：推荐DECIMER 根据资源条件选择计算资源丰富：ImageMol或KekuleScope 计算资源有限：Chemception 需要快速部署：DEEPScreen 根据数据特点选择大规模无标签数据：ImageMol的自监督学习小规模标注数据：Chemception的简单架构特定领域数据：针对性训练的专用模型参考文献 [1] Landrum G. RDKit: Open-source cheminformatics. 2020. Available: https://github.com/rdkit/rdkit [2] RDKit Documentation. Getting Started with the RDKit in Python. Available: https://www.rdkit.org/docs/GettingStartedInPython.html [3] RDKit Drawing Options Documentation. Available: https://www.rdkit.org/docs/source/rdkit.Chem.Draw.html [4] RDKit 2D Coordinate Generation. Available: https://www.rdkit.org/docs/source/rdkit.Chem.rdDepictor.html [5] RDKit AllChem Module Documentation. Available: https://www.rdkit.org/docs/source/rdkit.Chem.AllChem.html [6] RDKit Advanced Drawing Documentation. Available: https://www.rdkit.org/docs/source/rdkit.Chem.Draw.rdMolDraw2D.html [7] Rifaioglu AS, Nalbat E, Atalay V, Martin MJ, Cetin-Atalay R, Doğan T. DEEPScreen: high performance drug–target interaction prediction with convolutional neural networks using 2-D structural compound representations. Chemical Science. 2020;11(9):2531-2557. [8] Zeng X, Xiang H, Yu L, Wang J, Li K, Nussinov R, Cheng F. Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework. Nature Machine Intelligence. 2022;4(11):1004-1016. [9] Goh GB, Siegel C, Vishnu A, Hodas NO, Baker N. Chemception: A deep neural network with minimal chemistry knowledge matches the performance of expert-developed QSAR/QSPR models. 2017. arXiv preprint arXiv:1706.06689. [10] RDKit Drawing Options Advanced Configuration. Available: https://www.rdkit.org/docs/source/rdkit.Chem.Draw.html#drawing-options [11] RDKit Molecule Drawing Options. Available: https://www.rdkit.org/docs/source/rdkit.Chem.Draw.rdMolDraw2D.html#drawing-options [12] RDKit Color Customization. Available: https://www.rdkit.org/docs/Cookbook.html [13] RDKit Cookbook. Available: https://www.rdkit.org/docs/Cookbook.html [14] Xiang H. ImageMol: A molecular image-based pre-training deep learning framework for computational drug discovery. 2022. Available: https://github.com/HongxinXiang/ImageMol [15] Li Y, Liu B, Deng J, Guo Y, Du H. Image-based molecular representation learning for drug development: a survey. Briefings in Bioinformatics. 2024;25(4):bbae294. [16] Zeng X, Xiang H, Yu L, et al. Accurate prediction of molecular properties and drug targets using a self-supervised image representation learning framework. Nature Machine Intelligence. 2022;4(11):1004-1016. [17] Goh GB, Siegel C, Vishnu A, Hodas NO, Baker N. Chemception: A deep neural network with minimal chemistry knowledge matches the performance of expert-developed QSAR/QSPR models. arXiv preprint arXiv:1706.06689. 2017. [18] Wildcard Consulting. Learn how to teach your computer to see chemistry - free Chemception models with RDKit and Keras. Available: https://www.wildcardconsulting.dk/useful-information/learn-how-to-teach-your-computer-to-see-chemistry-free-chemception-models-with-rdkit-and-keras/ [19] Rifaioglu AS, Nalbat E, Atalay V, Martin MJ, Cetin-Atalay R, Doğan T. DEEPScreen: high performance drug–target interaction prediction with convolutional neural networks using 2-D structural compound representations. Chemical Science. 2020;11(9):2531-2557. [20] KekuleScope GitHub Repository. Available: https://github.com/isidroc/kekulescope [21] Rajan K, Zielesny A, Steinbeck C. DECIMER 1.0: deep learning for chemical image recognition using transformers. Journal of Cheminformatics. 2021;13(1):61. [22] Chen BJ, Li C, Dai H, Song L. MolNexTR: A generalized deep learning model for molecular image recognition. Journal of Cheminformatics. 2024;16(1):7. [23] Fernandez M, Ban F, Woo G, et al. Toxic Colors: The use of deep learning for predicting toxicity of compounds merely from their graphic images. Journal of Chemical Information and Modeling. 2018;58(8):1533-1543. [24] Shi H, Liu S, Chen J, Li X, Ma Q, Yu B. Predicting drug-target interactions using Lasso with random forest based on evolutionary information and chemical structure. Genomics. 2019;111(6):1839-1852. [25] Dalkiran A, Rifaioglu AS, Martin MJ, et al. ECPred: a tool for the prediction of the enzymatic functions of protein sequences based on the EC nomenclature. BMC Bioinformatics. 2018;19(1):334. [26] Zhong S, Zhang K, Bagheri M, et al. Molecular image-convolutional neural network (CNN) assisted QSAR models for predicting contaminant reactivity toward OH radicals: Transfer learning, data augmentation and model interpretation. Chemical Engineering Journal. 2021;403:126393. [27] Selvaraju RR, Cogswell M, Das A, et al. Grad-CAM: Visual explanations from deep networks via gradient-based localization. In: Proceedings of the IEEE International Conference on Computer Vision. 2017:618-626. [28] Wang S, Guo Y, Wang Y, Sun H, Huang J. SMILES-BERT: Large scale unsupervised pre-training for molecular property prediction. In: Proceedings of the 10th ACM International Conference on Bioinformatics, Computational Biology and Health Informatics. 2019:429-436. [29] Liu S, Guo H, Pan X, et al. A deep learning framework combining molecular image and protein structural representations identifies candidate drugs for pain. bioRxiv. 2024. doi:10.1101/2024.06.12.598706. [30] Ståhl N, Falkman G, Karlsson A, Mathiason G, Boström J. Deep convolutional neural networks for the prediction of molecular properties: Challenges and opportunities connected to the data. Journal of Integrative Bioinformatics. 2019;16(1):20180065.